CN117829322A - 基于周期性时间序列与多维度的关联型数据预测方法 - Google Patents
基于周期性时间序列与多维度的关联型数据预测方法 Download PDFInfo
- Publication number
- CN117829322A CN117829322A CN202311838834.5A CN202311838834A CN117829322A CN 117829322 A CN117829322 A CN 117829322A CN 202311838834 A CN202311838834 A CN 202311838834A CN 117829322 A CN117829322 A CN 117829322A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- prediction
- time series
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据预测技术领域,公开了一种基于周期性时间序列与多维度的关联型数据预测方法,首先将需要分析预测的数据进行数据清洗、治理,并且将数据整体切分成带有维度特征的时间序列数据,其次将时序数据通过时序预测算法,输出时序预测数据,再次将同一数据同时输入维度特征回归预测算法,输出回归预测数据,最后将时序预测数据结果与回归预测数据结果进行加权融合,根据预测模型校准系数R2曲线选取最优加权比例,得到模型的最优输出结果。对融合后的新算法模型进行测试并验证。将新的模型部署到实际应用场景中,通过利用真实商业数据进行测试,验证了新的预测方法可以大幅提升数据预测的精准度。
Description
技术领域
本发明涉及数据预测技术领域,特别涉及一种基于周期性时间序列与多维度的关联型数据预测方法。
背景技术
数据预测技术应用于各种领域,如金融、医疗保健、零售和制造业等,它们都可以从预测分析技术中获益。数据预测定义为使用数据分析技术来理解和预测未来行为和结果的一种技术。数据预测,是以数据(即利用已经掌握的信息)为依据,挖掘出潜藏在海量数据背后的特点、规律,再建立模型并以模型为基础代入新数据,得出尚未掌握的信息。就是运用当前和历史信息(数据)进行分析、挖掘、判定,得出对未来信息(数据)的预测。
霍尔特温特算法(Holt-Winters algorithm)是一种经典的时间序列预测算法,也称为三重指数平滑(Triple Exponential Smoothing)算法。算法的基本思想是对时间序列进行平滑处理,并根据历史数据的趋势和季节性信息对数据进行预测。具体来说,霍尔特温特算法使用三个指数平滑系数(即Level、Trend和Seasonal)来对时间序列进行平滑处理,并将平滑后的序列分解为三个部分,分别表示序列的趋势、季节性和随机波动。然后,根据历史序列的趋势和季节性模式,对未来的数据进行预测。
近年来,深度学习领域的发展推动了各行业对数据预测的使用,也逐渐提高了对数据精度的要求,霍尔特温特算法能够通过时间维度预测未来数据,其仍然具有周期性数据预测模型优化难的技术问题,导致降低了预测数据的准确性和模型的可用性。
发明内容
本发明提供了一种基于周期性时间序列与多维度的关联型数据预测方法,通过融合多维度的回归预测算法,进一步提升预测模型,通过将多维度特征回归预测与时间序列预测进行联合预测,大大提升预测数据的准确性,以及模型的可用性。
本发明提供了一种基于周期性时间序列与多维度的关联型数据预测方法,包括:
S1、获取需要分析预测的数据作为原始数据,并将原始数据进行数据预处理;其中,所述数据预处理包括处理缺失值、异常值、错误数据清洗、数据转换;
S2、将预处理后的所述原始数据进行切分成各个具有多维度的单一时间序列数据集;
S3、利用Holt-Winters无监督学习算法,并根据数据特征选取算法对应参数,输入时间序列数据以预测未来数据,输出时间序列预测数据;
S4、利用XGBoost监督学习算法,并对算法根据历史数据进行监督训练,输入所述时间序列数据,输出回归预测数据;
S5、将所述时间序列预测数据和回归预测数据进行加权表决,权重比根据融合预测模型校准系数R2曲线选取;
S6、将表决后的时间序列预测数据和回归预测数据进行合并输出。
进一步地,所述步骤S1中,处理缺失值为将原始数据中的度量数据列进行零值填充,处理异常值为将弃用数据进行删除,错误数据清洗为对于数据集中出现的负值数据进行修正,数据转换为将字符型时间格式转换为date格式,度量类型数据转换为浮点型格式。
进一步地,所述步骤S2中,将预处理后的所述原始数据根据不同的id进行数据切分,使其每个id生成对应的一个具有多维度特征的时间序列切片数据集。
进一步地,所述步骤S3中,为输入的时间序列数据选择时序序列模型,其包含两种算法模型:
加法模型,时间序列{xt}的趋势成分ut与季节成分st是相加的关系,即理想情况下xt=ut+st,其中ut随时间线性递增或递减,st为周期T的季节成分;采用指数平滑法,根据实际观测值xt不断校准模型中的ut和st成分;有:
ut=a*(st-st-T)+(1-α)*(ut-1+vt-1)
vt=β*(ut-ut-1)+(1-β)*vt-1
st=γ*(xt-ut)+(1-γ)*st-T
其中,以上三式中有三个平滑参数α、β、γ都在0到1之间,是模型预报值与实测反推值之间的平衡权重;vt表示趋势成分ut的线性递增速度;参数α、β、γ越大,表示时间序列xt的非平稳性越强,模型的可预报时间越短;
乘法模型,趋势成分ut与季节成分st是相乘的关系,即理想情况下xt=ut*st;模型的训练方法参照加法模型,有:
ut=α*(st/st-T)+(1-α)*(ut-1+vt-1)
vt=β*(ut-ut-1)+(1-β)*vt-1
st=γ*(xt/ut)+(1-γ)*st-T
乘法模型为非线性模型,处理季节波动的振幅随趋势成分变化的情况。
进一步地,所述步骤S3中,对模型参数的平滑指数、趋势分量、周期性分量、周期、预测跨度、以及跨度单位进行参数优化,得出不同参数下的模型性能曲线;根据均方根误差曲线:
其中,yi为预测值,为时间序列真实值,误差RMSE越小,模型优化越好,参数可用性越高,输出时间序列预测数据Yi。
进一步地,所述步骤S4中,采用XGBoost算法对准备好的训练数据进行模型的训练,在训练过程中,XGBoost利用梯度提升树的方法逐步构建准确的模型;为了获得最佳的回归预测结果,调整XGBoost模型的相关参数,包括学习率、树的数量、树的深度;将测试数据输入到已训练好的模型中,使用该模型进行回归预测;模型将根据输入的特征和已学习的规则输出相应的预测结果,输出回归预测数据Xi。
进一步地,所述步骤S5中,将所述时间序列预测数据和回归预测数据进行加权输出:
Si=w*Yi+(1-w)*Xi
其中,w为最佳权重参数值取值范围为(0,1),根据校准决定系数Adjusted-R2变化曲线选取最佳w值作为模型参数,其中R2为:
其中,R2的范围是0到1,Si为预测值,为时间序列真实值,为真实值均值;其值越接近1,表明方程的变量对S的解释能力越强,模型对数据拟合的也越好;选择曲线中R2最接近1值所对应得w值。
本发明的有益效果为:
本发明提出基于周期性时间序列与多维度的关联型数据预测方法,首先将需要分析预测的数据进行数据清洗、治理,将数据整体切分成带有维度特征的时间序列数据,其次将时序数据通过时序预测算法(Holt-winters),输出时序预测数据,再次将同一数据同时输入维度特征回归预测算法(XGBoost),输出回归预测数据,最后将时序预测数据结果与回归预测数据结果进行加权融合,根据预测模型校准系数R2曲线选取最优加权比例,得到模型的最优输出结果,对融合后的新算法模型使用真实数据环境进行测试,有效验证了本发明在实际环境中能够有效实现数据预测的精准度的提升,为后续数据进行可视化应用,保证信息可信度打下基础,同时验证了新模型算法在商业应用中的实用性和有效性。
附图说明
图1为本发明基于周期性时间序列与多维度的关联型数据预测方法的流程示意图。
图2为本发明中原始数据预处理后序列切分框图。
图3为本发明中时间序列预测框图。
图4为本发明中回归预测框图。
图5为本发明中两种数据预测融合框图。
图6为本发明中子序列预测结果整合框图。
图7为本发明中时间序列预测模型性能指标。
图8为本发明中融合后新模型性能指标。
图9为本发明中时间序列预测结果与真实数据对比图。
图10为本发明中融合后新模型预测结果与真实数据对比图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
数据预测技术基于统计和机器学习的方法,通过对大量的历史数据进行分析和建模,使用统计学方法(如回归分析、时间序列分析等)和机器学习算法(如决策树、支持向量机、神经网络等)进行预测。在周期性数据预测上,霍尔特温特算法使用三个指数平滑系数(即Level、Trend和Seasonal)来对时间序列进行平滑处理,并将平滑后的序列分解为三个部分,分别表示序列的趋势、季节性和随机波动。然后,根据历史序列的趋势和季节性模式,对未来的数据进行预测。在数据预测领域种,提升预测数据的准确性,以及模型可用性上是一个关键的技术环节,因此,本发明公开了基于周期性时间序列与多维度的关联型数据预测方法。步骤为:首先将需要分析预测的数据进行数据清洗、治理,将数据整体切分成带有维度特征的时间序列数据,其次将时序数据通过时序预测算法(Holt-winters),输出时序预测数据,再次将同一数据同时输入维度特征回归预测算法(XGBoost),输出回归预测数据,最后将时序预测数据结果与回归预测数据结果进行加权融合,根据预测误差曲线选取最优加权比例,得到模型的最优输出结果。对融合后的新算法模型进行测试并验证。将新的模型部署到实际应用场景中,通过利用真实商业数据进行测试,验证了新的预测方法可以大幅提升数据预测的精准度。
在本实施例中的整体模型中,数据源数据为某网站公开数据,其余的模块均是以软件的形式设计完成。整个数据预测模型,除去数据源输入,其他扩展功能都是需要自行设计以及搭建。
数据源数据采集,对某网站公开周期性时间序列数据,进行采集,使用python中selenium框架进行自动化采集,数据存储方式使用开源MYSQL数据库进行数据存储。在软件本身提供预测模型算法基础上,扩展融合了一系列本发明需求的功能,从而实现新模型的发明。
系统流程参见图1。在实验环境中,设置了原始数据源,数据源数据为多维度的周期性时间序列数据,用于训练数据以及交叉验证数据预测模型,验证融合模型的可行性。
本发明提供的基于周期性时间序列与多维度的关联型数据预测方法,包括:
S1、数据预处理。获取需要分析预测的数据作为原始数据,并将原始数据进行数据预处理;其中,所述数据预处理包括处理缺失值、异常值、错误数据清洗、数据转换;具体为将原始数据中的度量数据列进行零值填充,将弃用数据进行删除,对于数据集中出现的负值数据进行修正,将字符型时间格式转换为date格式,度量类型数据转换为浮点型格式。
数据预测的前提是建立在高质量历史数据的基础之上,通过配置数据源连接,输入数据库配置信息,选择相应的数据库,保存数据库配置,建立数据库持久化连接。
建立原始数据集,选取数据库中的原始数据底表,将原表中存储类型为varchar的度量字段进行类型转换,转换为浮点型float,并且对度量列缺失值进行0值填充,过滤掉数据中的乱码数据,以及弃用数据,去除重复数据,为数据切分以及数据预测做准备。
S2、数据切分。将预处理后的所述原始数据进行切分成各个具有多维度的单一时间序列数据集;
将预处理后的所述原始数据根据不同的id进行数据切分,使其每个id生成对应的一个具有多维度特征的时间序列切片数据集。
将处理好的数据集根据以时间序列为单位切片分组,使其成为单个具有多维度周期性时间序列属性的数据子集,如图2所示。
S3、期性时间序列预测。利用Holt-Winters无监督学习算法,并根据数据特征选取算法对应参数,输入时间序列数据以预测未来数据,输出时间序列预测数据;
在数据集切分之后,将时间序列数据子集使用时间序列预测算法进行数据预测。其中时间序列预测算法使用霍尔特-温特算法:
首先为输入的时间序列数据选择时序序列模型,其包含两种算法模型:
加法模型,时间序列{xt}的趋势成分ut与季节成分s是相加的关系,即理想情况下xt=ut+st,其中ut随时间线性递增或递减,st为周期T的季节成分;实际情况下,由于序列{xt}的非平稳性,其趋势成分ut的线性递增速度和季节成分st都只是短期相对固定,而长期来看是可以缓慢变化的。此外,xt中还可能含有无规律的噪声成分。因此,需要采用指数平滑法(EMA),根据实际观测值xt不断校准模型中的ut和st成分,有:
ut=α*(st-st-T)+(1-α)*(ut-1+vt-1)
vt=β*(ut-ut-1)+(1-β)*vt-1
st=γ*(xt-ut)+(1-γ)*st-T
其中,以上三式中有三个平滑参数α、β、γ都在0到1之间,是模型预报值与实测反推值之间的平衡权重;vt表示趋势成分ut的线性递增速度;参数α、β、γ越大,表示时间序列xt的非平稳性越强,模型的可预报时间越短;故需要更快地调整模型中的各成分。反之,如果能用较小的参数α、β、γ与历史数据吻合上,则模型与数据符合较好,可预报时间较长。当历史数据用完后,模型由训练环节进入预报环节时,令α=β=γ=0,因为已经没有数据来修正模型,再用理想情况的公式xt=ut+st计算出xt的预报值。为确定合理参数α、β、γ和可预报时间,采用交叉验证法。将历史数据分为两段,前一段用来训练模型,用完后让模型进入预报环节,再将所得的预报值与后一段历史数据进行比较。可根据均方根误差曲线:
其中,yi为预测值,为时间序列真实值,误差RMSE越小,模型优化越好,参数可用性越高,输出时间序列预测数据Yi。
乘法模型,趋势成分ut与季节成分st是相乘的关系,即理想情况下xt=ut*st;模型的训练方法与加法模型类似,有:
ut=α*(st/st-T)+(1-α)*(ut-1+vt-1)
vt=β*(ut-ut-1)+(1-β)*vt-1
st=γ*(xt/ut)+(1-γ)*st-T
乘法模型为非线性模型,可以处理季节波动的振幅随趋势成分变化的情况。故它比加法模型更依赖一个好的初始值。一般截取xt的第一个周期T以内的数据,消除趋势(detrend)和降噪(denoise)以后作为{s}_{1},{s}_{2},...,{s}_{T}的初始波形,使用与评估方法与加法模型类似,不在赘述。
利用深度分析模块,可以轻松地建立出Holt-Winters模型,并且针对时间序列数据集进行数据的预测,其流程图如图3所示,这里对所有数据进行划分,将数据最新的一周数据作为测试集,其余数据作为训练集。针对训练集进行训练,然后使用训练好的数据对数据集数据进行估计。由于数据是线性类型,因此使用加法模型,对数据进行拟合和预测,具体体现为设置参数alpha平滑指数设置为:0.0,趋势分量设置为:None,周期性分量选择:add(使用加法效应),数据间隔多少样本量呈现一个周期选择:7(由数据特征数据按照7天一周期变化选择),gamma周期性分量系数设置为:0,向后预测跨度(步长)设置为:7,跨度单位设置为:D(天)。设置输入时间序列日期字段,设置输出预测数值字段。将输出数据保存为数据集,方便与优化后最终模型做对比验证,以及模型融合。
S4、多维度回归预测。利用XGBoost监督学习算法,并对算法根据历史数据进行监督训练,输入所述时间序列数据,输出回归预测数据;
将各个时间序列数据集分为训练集和测试集,同样的选取数据最新一周的数据作为测试集,其余作为训练集。使用XGBoost算法对准备好的训练数据进行模型的训练。其流程如图4所示,在训练过程中,XGBoost先构建出一颗基本的决策树,在每个叶子节点上都给出一个预测值,这些值初始时可以设为全局平均值。用训练集中每个样本的实际值与预测值的差来计算每个样本的负梯度,作为下一步训练的权重。为了优化模型的预测能力,需要构造新的决策树,让它能够更好地拟合训练数据。采用梯度提升的方法,即在每轮迭代中,新增一颗树,它要拟合的目标是当前模型没有拟合好的样本的负梯度。为了使得新决策树能够更好地改进模型预测能力,需要给它一个较小的学习率,并在梯度提升迭代中约束树的深度,以避免过拟合。通过计算新树的权重,得到加入新树后的模型预测值。重复以上步骤,不断加入新的决策树,直到达到预期的轮数。最终的预测结果,是多颗决策树预测结果的加权和。为了获得最佳的回归预测结果,需要适当手动调整XGBoost模型的相关参数。
在本实验例中,个体学习器类型选择:gbtree,个体学习器最大深度设置为:5,学习率设置为:0.1,个体学习器数量设置为:100,节点分裂最小损失下降值设置为:0,叶子节点最小权重之和设置为:1,最大权重增量步设置为:0,训练样本采样比例设置为:1,个体学习器特征采样比例设置为1,逐层采样比例设置为:1,L1惩罚项系数设置为:0,L2惩罚项系数设置为:0,随机种子设置为:1。将测试数据输入到已训练好的模型中,使用该模型进行回归预测,训练集数据中的多维度特征设置为自变量,预测度量为因变量,模型将根据输入的特征和已学习的规则给出相应的预测结果。输出回归预测数据Xi,,将模型应用结果保存为回归预测数据集,用于与时序预测值进行融合表决输出。
S5、模型融合表决。将所述时间序列预测数据和回归预测数据进行加权表决,权重比根据融合预测模型校准系数R2曲线选取;
将回归预测数据、时间序列预测数据与测试集数据进行关联合并,生成预测数据集,如图5所示。将时间序列预测数据与回归预测数据进行加权表决,其中加权公式为:
Si=w*Yi+(1-w)*Xi
其中,w为最佳权重参数值取值范围为(0,1),Xi为回归预测值,Yi为时间序列预测值,根据校准决定系数Adjusted-R2变化曲线选取最佳w值作为模型参数,其中R2为:
其中,Si为融合后的预测数据序列,为时间序列真实值,为真实值均值。R2的范围是0到1。其值越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好。选择曲线中R2最接近1值所对应得w值。其中w参数以及上述模型中的参数均可以使用网格搜索法进行超参数优化,也可根据实际情况选取合适的参数值。本实施例使用网格搜索法进行参数调优,获取到最优的参数w,以及R2。至此就得到了每个具有多个维度的时间序列切片的预测数据,保存每个序列的预测结果,用于合并数据。
S6、数据整合。将表决后的时间序列预测数据和回归预测数据进行合并输出。
将步骤5中输出的每个时间序列的预测数据集进行联合操作,进行数据整合,如图6所示,确保联合的列数目以及数据类型匹配,将所有数据整合到最终的预测结果集进行输出。
对比图7和图8可知,基于周期性时间序列与多维度的关联型数据预测方法的预测准确率以及模型可用性上都大大优于传统的时间序列预测算法,融合多维度回归预测后,误差指标大幅减小,R2指数也提升了近10%。通过多维度回归预测可以更好的拟合时间序列预测值,相比只使用单一的时间序列预测,能够获得更趋于真实值的预测数据。可以通过图9和图10,观测曲线数据的偏离程度,融合后的模型曲线更趋于真实数据曲线。可以通过以上分析模型融合前后的预测精准度的改变,可以充分证明模型方法在数据预测上面的可行性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,包括:
S1、获取需要分析预测的数据作为原始数据,并将原始数据进行数据预处理;其中,所述数据预处理包括处理缺失值、异常值、错误数据清洗、数据转换;
S2、将预处理后的所述原始数据进行切分成各个具有多维度的单一时间序列数据集;
S3、利用Holt-Winters无监督学习算法,并根据数据特征选取算法对应参数,输入时间序列数据以预测未来数据,输出时间序列预测数据;
S4、利用XGBoost监督学习算法,并对算法根据历史数据进行监督训练,输入所述时间序列数据,输出回归预测数据;
S5、将所述时间序列预测数据和回归预测数据进行加权表决,权重比根据融合预测模型校准系数R2曲线选取;
S6、将表决后的时间序列预测数据和回归预测数据进行合并输出。
2.根据权利要求1所述的基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,所述步骤S1中,处理缺失值为将原始数据中的度量数据列进行零值填充,处理异常值为将弃用数据进行删除,错误数据清洗为对于数据集中出现的负值数据进行修正,数据转换为将字符型时间格式转换为date格式,度量类型数据转换为浮点型格式。
3.根据权利要求1所述的基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,所述步骤S2中,将预处理后的所述原始数据根据不同的id进行数据切分,使其每个id生成对应的一个具有多维度特征的时间序列切片数据集。
4.根据权利要求1所述的基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,所述步骤S3中,为输入的时间序列数据选择时序序列模型,其包含两种算法模型:
加法模型,时间序列{xt}的趋势成分ut与季节成分st是相加的关系,即理想情况下xt=ut+st,其中ut随时间线性递增或递减,st为周期T的季节成分;采用指数平滑法,根据实际观测值xt不断校准模型中的ut和st成分;有:
ut=α*(st-st-T)+(1-α)*(ut-1+vt-1)
vt=β*(ut-ut-1)+(1-β)*vt-1
st=γ*(xt-ut)+(1-γ)*st-T
其中,以上三式中有三个平滑参数α、β、γ都在0到1之间,是模型预报值与实测反推值之间的平衡权重;vt表示趋势成分ut的线性递增速度;参数α、β、γ越大,表示时间序列xt的非平稳性越强,模型的可预报时间越短;
乘法模型,趋势成分ut与季节成分st是相乘的关系,即理想情况下xt=ut*st;模型的训练方法参照加法模型,有:
ut=α*(st/st-T)+(1-α)*(ut-1+vt-1)
vt=β*(ut-ut-1)+(1-β)*vt-1
st=γ*(xt/ut)+(1-γ)*st-T
乘法模型为非线性模型,处理季节波动的振幅随趋势成分变化的情况。
5.根据权利要求4所述的基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,所述步骤S3中,对模型参数的平滑指数、趋势分量、周期性分量、周期、预测跨度、以及跨度单位进行参数优化,得出不同参数下的模型性能曲线;根据均方根误差曲线:
其中,yi为预测值,为时间序列真实值,误差RMSE越小,模型优化越好,参数可用性越高,输出时间序列预测数据Yi。
6.根据权利要求5所述的基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,所述步骤S4中,采用XGBoost算法对准备好的训练数据进行模型的训练,在训练过程中,XGBoost利用梯度提升树的方法逐步构建准确的模型;为了获得最佳的回归预测结果,调整XGBoost模型的相关参数,包括学习率、树的数量、树的深度;将测试数据输入到已训练好的模型中,使用该模型进行回归预测;模型将根据输入的特征和已学习的规则输出相应的预测结果,输出回归预测数据Xi。
7.根据权利要求6所述的基于周期性时间序列与多维度的关联型数据预测方法,其特征在于,所述步骤S5中,将所述时间序列预测数据和回归预测数据进行加权输出:
Si=w*Yi+(1-w)*Xi
其中,w为最佳权重参数值取值范围为(0,1),根据校准决定系数Adjusted-R2变化曲线选取最佳w值作为模型参数,其中R2为:
其中,R2的范围是0到1,Si为预测值,为时间序列真实值,为真实值均值;其值越接近1,表明方程的变量对S的解释能力越强,模型对数据拟合的也越好;选择曲线中R2最接近1值所对应得w值。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311838834.5A CN117829322A (zh) | 2023-12-28 | 2023-12-28 | 基于周期性时间序列与多维度的关联型数据预测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311838834.5A CN117829322A (zh) | 2023-12-28 | 2023-12-28 | 基于周期性时间序列与多维度的关联型数据预测方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117829322A true CN117829322A (zh) | 2024-04-05 |
Family
ID=90505523
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311838834.5A Pending CN117829322A (zh) | 2023-12-28 | 2023-12-28 | 基于周期性时间序列与多维度的关联型数据预测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117829322A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118643579A (zh) * | 2024-08-15 | 2024-09-13 | 浙江大学 | 基于深度学习算法的洪涝灾害下建筑功能概率预测方法 |
| CN118709156A (zh) * | 2024-08-30 | 2024-09-27 | 山东浪潮科学研究院有限公司 | 一种用于能源领域的时间序列预测方法及装置、介质 |
| CN119886452A (zh) * | 2025-01-13 | 2025-04-25 | 哈尔滨工程大学 | 基于时间序列分析的船舶船体升沉运动预测分析方法及系统 |
-
2023
- 2023-12-28 CN CN202311838834.5A patent/CN117829322A/zh active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118643579A (zh) * | 2024-08-15 | 2024-09-13 | 浙江大学 | 基于深度学习算法的洪涝灾害下建筑功能概率预测方法 |
| CN118709156A (zh) * | 2024-08-30 | 2024-09-27 | 山东浪潮科学研究院有限公司 | 一种用于能源领域的时间序列预测方法及装置、介质 |
| CN119886452A (zh) * | 2025-01-13 | 2025-04-25 | 哈尔滨工程大学 | 基于时间序列分析的船舶船体升沉运动预测分析方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9047559B2 (en) | Computer-implemented systems and methods for testing large scale automatic forecast combinations | |
| CN117829322A (zh) | 基于周期性时间序列与多维度的关联型数据预测方法 | |
| CN118229119B (zh) | 融合时序分解和机器学习模型的短期负荷预测方法、系统及存储介质 | |
| CN117313160B (zh) | 一种隐私增强的结构化数据仿真生成方法及系统 | |
| Huerta et al. | Time-varying models for extreme values | |
| Chen et al. | An adaptive functional autoregressive forecast model to predict electricity price curves | |
| CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
| CN111127246A (zh) | 一种输电线路工程造价的智能预测方法 | |
| CN115906954A (zh) | 一种基于图神经网络的多变量时间序列预测方法及装置 | |
| CN110633859B (zh) | 一种两阶段分解集成的水文序列预测方法 | |
| US20180285769A1 (en) | Artificial immune system for fuzzy cognitive map learning | |
| CN109981749A (zh) | 一种基于极限梯度提升的云工作流任务执行时间预测方法 | |
| CN113723707A (zh) | 一种基于深度学习模型的中长期径流趋势预测方法 | |
| Heckelei et al. | A Bayesian alternative to generalized cross entropy solutions for underdetermined econometric models | |
| Moosavi et al. | A machine learning approach to adaptive covariance localization | |
| CN117114184A (zh) | 一种城市碳排放影响因素特征提取与中长期预测方法及装置 | |
| Hrafnkelsson et al. | Max-and-smooth: A two-step approach for approximate Bayesian inference in latent Gaussian models | |
| Wati et al. | Autoregressive Integrated Moving Average (ARIMA) Model for Forecasting Indonesian Crude Oil Price | |
| CN117370775A (zh) | 油气井横波速度最佳参数选择方法、设备及存储介质 | |
| CN113869033A (zh) | 融入迭代式句对关系预测的图神经网络句子排序方法 | |
| CN111325384A (zh) | 一种结合统计特征和卷积神经网络模型的ndvi预测方法 | |
| Bidyuk et al. | Features of application of Monte Carlo method with Markov chain algorithms in Bayesian data analysis | |
| CN115829726A (zh) | 一种智能风控方法及系统 | |
| Al Marhoobi | Time series analysis and forecasting with applications to climate science | |
| CN120853760B (zh) | 氧化镓外延层的预测方法、装置、设备及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |