CN117829322A

CN117829322A - 基于周期性时间序列与多维度的关联型数据预测方法

Info

Publication number: CN117829322A
Application number: CN202311838834.5A
Authority: CN
Inventors: 田峰; 卢云阳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-05

Abstract

本发明涉及数据预测技术领域，公开了一种基于周期性时间序列与多维度的关联型数据预测方法，首先将需要分析预测的数据进行数据清洗、治理，并且将数据整体切分成带有维度特征的时间序列数据，其次将时序数据通过时序预测算法，输出时序预测数据，再次将同一数据同时输入维度特征回归预测算法，输出回归预测数据，最后将时序预测数据结果与回归预测数据结果进行加权融合，根据预测模型校准系数R2曲线选取最优加权比例，得到模型的最优输出结果。对融合后的新算法模型进行测试并验证。将新的模型部署到实际应用场景中，通过利用真实商业数据进行测试，验证了新的预测方法可以大幅提升数据预测的精准度。

Description

基于周期性时间序列与多维度的关联型数据预测方法

技术领域

本发明涉及数据预测技术领域，特别涉及一种基于周期性时间序列与多维度的关联型数据预测方法。

背景技术

数据预测技术应用于各种领域，如金融、医疗保健、零售和制造业等，它们都可以从预测分析技术中获益。数据预测定义为使用数据分析技术来理解和预测未来行为和结果的一种技术。数据预测，是以数据(即利用已经掌握的信息)为依据，挖掘出潜藏在海量数据背后的特点、规律，再建立模型并以模型为基础代入新数据，得出尚未掌握的信息。就是运用当前和历史信息(数据)进行分析、挖掘、判定，得出对未来信息(数据)的预测。

霍尔特温特算法(Holt-Winters algorithm)是一种经典的时间序列预测算法，也称为三重指数平滑(Triple Exponential Smoothing)算法。算法的基本思想是对时间序列进行平滑处理，并根据历史数据的趋势和季节性信息对数据进行预测。具体来说，霍尔特温特算法使用三个指数平滑系数(即Level、Trend和Seasonal)来对时间序列进行平滑处理，并将平滑后的序列分解为三个部分，分别表示序列的趋势、季节性和随机波动。然后，根据历史序列的趋势和季节性模式，对未来的数据进行预测。

近年来，深度学习领域的发展推动了各行业对数据预测的使用，也逐渐提高了对数据精度的要求，霍尔特温特算法能够通过时间维度预测未来数据，其仍然具有周期性数据预测模型优化难的技术问题，导致降低了预测数据的准确性和模型的可用性。

发明内容

本发明提供了一种基于周期性时间序列与多维度的关联型数据预测方法，通过融合多维度的回归预测算法，进一步提升预测模型，通过将多维度特征回归预测与时间序列预测进行联合预测，大大提升预测数据的准确性，以及模型的可用性。

本发明提供了一种基于周期性时间序列与多维度的关联型数据预测方法，包括：

S1、获取需要分析预测的数据作为原始数据，并将原始数据进行数据预处理；其中，所述数据预处理包括处理缺失值、异常值、错误数据清洗、数据转换；

S2、将预处理后的所述原始数据进行切分成各个具有多维度的单一时间序列数据集；

S3、利用Holt-Winters无监督学习算法，并根据数据特征选取算法对应参数，输入时间序列数据以预测未来数据，输出时间序列预测数据；

S4、利用XGBoost监督学习算法，并对算法根据历史数据进行监督训练，输入所述时间序列数据，输出回归预测数据；

S5、将所述时间序列预测数据和回归预测数据进行加权表决，权重比根据融合预测模型校准系数R2曲线选取；

S6、将表决后的时间序列预测数据和回归预测数据进行合并输出。

进一步地，所述步骤S1中，处理缺失值为将原始数据中的度量数据列进行零值填充，处理异常值为将弃用数据进行删除，错误数据清洗为对于数据集中出现的负值数据进行修正，数据转换为将字符型时间格式转换为date格式，度量类型数据转换为浮点型格式。

进一步地，所述步骤S2中，将预处理后的所述原始数据根据不同的id进行数据切分，使其每个id生成对应的一个具有多维度特征的时间序列切片数据集。

进一步地，所述步骤S3中，为输入的时间序列数据选择时序序列模型，其包含两种算法模型：

加法模型，时间序列{x_t}的趋势成分u_t与季节成分s_t是相加的关系，即理想情况下x_t＝u_t+s_t，其中u_t随时间线性递增或递减，s_t为周期T的季节成分；采用指数平滑法，根据实际观测值x_t不断校准模型中的u_t和s_t成分；有：

u_t＝a*(s_t-s_t-T)+(1-α)*(u_t-1+v_t-1)

v_t＝β*(u_t-u_t-1)+(1-β)*v_t-1

s_t＝γ*(x_t-u_t)+(1-γ)*s_t-T

其中，以上三式中有三个平滑参数α、β、γ都在0到1之间，是模型预报值与实测反推值之间的平衡权重；v_t表示趋势成分u_t的线性递增速度；参数α、β、γ越大，表示时间序列x_t的非平稳性越强，模型的可预报时间越短；

乘法模型，趋势成分u_t与季节成分s_t是相乘的关系，即理想情况下x_t＝u_t*s_t；模型的训练方法参照加法模型，有：

u_t＝α*(s_t/s_t-T)+(1-α)*(u_t-1+v_t-1)

v_t＝β*(u_t-u_t-1)+(1-β)*v_t-1

s_t＝γ*(x_t/u_t)+(1-γ)*s_t-T

乘法模型为非线性模型，处理季节波动的振幅随趋势成分变化的情况。

进一步地，所述步骤S3中，对模型参数的平滑指数、趋势分量、周期性分量、周期、预测跨度、以及跨度单位进行参数优化，得出不同参数下的模型性能曲线；根据均方根误差曲线：

其中，y_i为预测值，为时间序列真实值，误差RMSE越小，模型优化越好，参数可用性越高，输出时间序列预测数据Y_i。

进一步地，所述步骤S4中，采用XGBoost算法对准备好的训练数据进行模型的训练，在训练过程中，XGBoost利用梯度提升树的方法逐步构建准确的模型；为了获得最佳的回归预测结果，调整XGBoost模型的相关参数，包括学习率、树的数量、树的深度；将测试数据输入到已训练好的模型中，使用该模型进行回归预测；模型将根据输入的特征和已学习的规则输出相应的预测结果，输出回归预测数据X_i。

进一步地，所述步骤S5中，将所述时间序列预测数据和回归预测数据进行加权输出：

S_i＝w*Y_i+(1-w)*X_i

其中，w为最佳权重参数值取值范围为(0,1)，根据校准决定系数Adjusted-R2变化曲线选取最佳w值作为模型参数，其中R2为：

其中，R²的范围是0到1，S_i为预测值，为时间序列真实值，为真实值均值；其值越接近1，表明方程的变量对S的解释能力越强，模型对数据拟合的也越好；选择曲线中R²最接近1值所对应得w值。

本发明的有益效果为：

本发明提出基于周期性时间序列与多维度的关联型数据预测方法，首先将需要分析预测的数据进行数据清洗、治理，将数据整体切分成带有维度特征的时间序列数据，其次将时序数据通过时序预测算法(Holt-winters)，输出时序预测数据，再次将同一数据同时输入维度特征回归预测算法(XGBoost)，输出回归预测数据，最后将时序预测数据结果与回归预测数据结果进行加权融合，根据预测模型校准系数R2曲线选取最优加权比例，得到模型的最优输出结果，对融合后的新算法模型使用真实数据环境进行测试，有效验证了本发明在实际环境中能够有效实现数据预测的精准度的提升，为后续数据进行可视化应用，保证信息可信度打下基础，同时验证了新模型算法在商业应用中的实用性和有效性。

附图说明

图1为本发明基于周期性时间序列与多维度的关联型数据预测方法的流程示意图。

图2为本发明中原始数据预处理后序列切分框图。

图3为本发明中时间序列预测框图。

图4为本发明中回归预测框图。

图5为本发明中两种数据预测融合框图。

图6为本发明中子序列预测结果整合框图。

图7为本发明中时间序列预测模型性能指标。

图8为本发明中融合后新模型性能指标。

图9为本发明中时间序列预测结果与真实数据对比图。

图10为本发明中融合后新模型预测结果与真实数据对比图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

数据预测技术基于统计和机器学习的方法，通过对大量的历史数据进行分析和建模，使用统计学方法(如回归分析、时间序列分析等)和机器学习算法(如决策树、支持向量机、神经网络等)进行预测。在周期性数据预测上，霍尔特温特算法使用三个指数平滑系数(即Level、Trend和Seasonal)来对时间序列进行平滑处理，并将平滑后的序列分解为三个部分，分别表示序列的趋势、季节性和随机波动。然后，根据历史序列的趋势和季节性模式，对未来的数据进行预测。在数据预测领域种，提升预测数据的准确性，以及模型可用性上是一个关键的技术环节，因此，本发明公开了基于周期性时间序列与多维度的关联型数据预测方法。步骤为：首先将需要分析预测的数据进行数据清洗、治理，将数据整体切分成带有维度特征的时间序列数据，其次将时序数据通过时序预测算法(Holt-winters)，输出时序预测数据，再次将同一数据同时输入维度特征回归预测算法(XGBoost)，输出回归预测数据，最后将时序预测数据结果与回归预测数据结果进行加权融合，根据预测误差曲线选取最优加权比例，得到模型的最优输出结果。对融合后的新算法模型进行测试并验证。将新的模型部署到实际应用场景中，通过利用真实商业数据进行测试，验证了新的预测方法可以大幅提升数据预测的精准度。

在本实施例中的整体模型中，数据源数据为某网站公开数据，其余的模块均是以软件的形式设计完成。整个数据预测模型，除去数据源输入，其他扩展功能都是需要自行设计以及搭建。

数据源数据采集，对某网站公开周期性时间序列数据，进行采集，使用python中selenium框架进行自动化采集，数据存储方式使用开源MYSQL数据库进行数据存储。在软件本身提供预测模型算法基础上，扩展融合了一系列本发明需求的功能，从而实现新模型的发明。

系统流程参见图1。在实验环境中，设置了原始数据源，数据源数据为多维度的周期性时间序列数据，用于训练数据以及交叉验证数据预测模型，验证融合模型的可行性。

本发明提供的基于周期性时间序列与多维度的关联型数据预测方法，包括：

S1、数据预处理。获取需要分析预测的数据作为原始数据，并将原始数据进行数据预处理；其中，所述数据预处理包括处理缺失值、异常值、错误数据清洗、数据转换；具体为将原始数据中的度量数据列进行零值填充，将弃用数据进行删除，对于数据集中出现的负值数据进行修正，将字符型时间格式转换为date格式，度量类型数据转换为浮点型格式。

数据预测的前提是建立在高质量历史数据的基础之上，通过配置数据源连接，输入数据库配置信息，选择相应的数据库，保存数据库配置，建立数据库持久化连接。

建立原始数据集，选取数据库中的原始数据底表，将原表中存储类型为varchar的度量字段进行类型转换，转换为浮点型float，并且对度量列缺失值进行0值填充，过滤掉数据中的乱码数据，以及弃用数据，去除重复数据，为数据切分以及数据预测做准备。

S2、数据切分。将预处理后的所述原始数据进行切分成各个具有多维度的单一时间序列数据集；

将预处理后的所述原始数据根据不同的id进行数据切分，使其每个id生成对应的一个具有多维度特征的时间序列切片数据集。

将处理好的数据集根据以时间序列为单位切片分组，使其成为单个具有多维度周期性时间序列属性的数据子集，如图2所示。

S3、期性时间序列预测。利用Holt-Winters无监督学习算法，并根据数据特征选取算法对应参数，输入时间序列数据以预测未来数据，输出时间序列预测数据；

在数据集切分之后，将时间序列数据子集使用时间序列预测算法进行数据预测。其中时间序列预测算法使用霍尔特-温特算法：

首先为输入的时间序列数据选择时序序列模型，其包含两种算法模型：

加法模型，时间序列{x_t}的趋势成分u_t与季节成分s是相加的关系，即理想情况下x_t＝u_t+s_t，其中u_t随时间线性递增或递减，s_t为周期T的季节成分；实际情况下，由于序列{x_t}的非平稳性，其趋势成分u_t的线性递增速度和季节成分s_t都只是短期相对固定，而长期来看是可以缓慢变化的。此外，x_t中还可能含有无规律的噪声成分。因此，需要采用指数平滑法(EMA)，根据实际观测值x_t不断校准模型中的u_t和s_t成分，有：

u_t＝α*(s_t-s_t-T)+(1-α)*(u_t-1+v_t-1)

v_t＝β*(u_t-u_t-1)+(1-β)*v_t-1

s_t＝γ*(x_t-u_t)+(1-γ)*s_t-T

其中，以上三式中有三个平滑参数α、β、γ都在0到1之间，是模型预报值与实测反推值之间的平衡权重；v_t表示趋势成分u_t的线性递增速度；参数α、β、γ越大，表示时间序列x_t的非平稳性越强，模型的可预报时间越短；故需要更快地调整模型中的各成分。反之，如果能用较小的参数α、β、γ与历史数据吻合上，则模型与数据符合较好，可预报时间较长。当历史数据用完后，模型由训练环节进入预报环节时，令α＝β＝γ＝0，因为已经没有数据来修正模型，再用理想情况的公式x_t＝u_t+s_t计算出x_t的预报值。为确定合理参数α、β、γ和可预报时间，采用交叉验证法。将历史数据分为两段，前一段用来训练模型，用完后让模型进入预报环节，再将所得的预报值与后一段历史数据进行比较。可根据均方根误差曲线：

乘法模型，趋势成分u_t与季节成分s_t是相乘的关系，即理想情况下x_t＝u_t*s_t；模型的训练方法与加法模型类似，有：

u_t＝α*(s_t/s_t-T)+(1-α)*(u_t-1+v_t-1)

v_t＝β*(u_t-u_t-1)+(1-β)*v_t-1

s_t＝γ*(x_t/u_t)+(1-γ)*s_t-T

乘法模型为非线性模型，可以处理季节波动的振幅随趋势成分变化的情况。故它比加法模型更依赖一个好的初始值。一般截取x_t的第一个周期T以内的数据，消除趋势(detrend)和降噪(denoise)以后作为{s}_{1},{s}_{2}，...,{s}_{T}的初始波形，使用与评估方法与加法模型类似，不在赘述。

利用深度分析模块，可以轻松地建立出Holt-Winters模型，并且针对时间序列数据集进行数据的预测，其流程图如图3所示，这里对所有数据进行划分，将数据最新的一周数据作为测试集，其余数据作为训练集。针对训练集进行训练，然后使用训练好的数据对数据集数据进行估计。由于数据是线性类型，因此使用加法模型，对数据进行拟合和预测，具体体现为设置参数alpha平滑指数设置为：0.0，趋势分量设置为：None，周期性分量选择：add(使用加法效应)，数据间隔多少样本量呈现一个周期选择：7(由数据特征数据按照7天一周期变化选择)，gamma周期性分量系数设置为：0，向后预测跨度(步长)设置为：7，跨度单位设置为：D(天)。设置输入时间序列日期字段，设置输出预测数值字段。将输出数据保存为数据集，方便与优化后最终模型做对比验证，以及模型融合。

S4、多维度回归预测。利用XGBoost监督学习算法，并对算法根据历史数据进行监督训练，输入所述时间序列数据，输出回归预测数据；

将各个时间序列数据集分为训练集和测试集，同样的选取数据最新一周的数据作为测试集，其余作为训练集。使用XGBoost算法对准备好的训练数据进行模型的训练。其流程如图4所示，在训练过程中，XGBoost先构建出一颗基本的决策树，在每个叶子节点上都给出一个预测值，这些值初始时可以设为全局平均值。用训练集中每个样本的实际值与预测值的差来计算每个样本的负梯度，作为下一步训练的权重。为了优化模型的预测能力，需要构造新的决策树，让它能够更好地拟合训练数据。采用梯度提升的方法，即在每轮迭代中，新增一颗树，它要拟合的目标是当前模型没有拟合好的样本的负梯度。为了使得新决策树能够更好地改进模型预测能力，需要给它一个较小的学习率，并在梯度提升迭代中约束树的深度，以避免过拟合。通过计算新树的权重，得到加入新树后的模型预测值。重复以上步骤，不断加入新的决策树，直到达到预期的轮数。最终的预测结果，是多颗决策树预测结果的加权和。为了获得最佳的回归预测结果，需要适当手动调整XGBoost模型的相关参数。

在本实验例中，个体学习器类型选择：gbtree，个体学习器最大深度设置为：5，学习率设置为：0.1，个体学习器数量设置为：100，节点分裂最小损失下降值设置为：0，叶子节点最小权重之和设置为：1，最大权重增量步设置为：0，训练样本采样比例设置为：1，个体学习器特征采样比例设置为1，逐层采样比例设置为：1，L1惩罚项系数设置为：0，L2惩罚项系数设置为：0，随机种子设置为：1。将测试数据输入到已训练好的模型中，使用该模型进行回归预测，训练集数据中的多维度特征设置为自变量，预测度量为因变量，模型将根据输入的特征和已学习的规则给出相应的预测结果。输出回归预测数据X_i，,将模型应用结果保存为回归预测数据集，用于与时序预测值进行融合表决输出。

S5、模型融合表决。将所述时间序列预测数据和回归预测数据进行加权表决，权重比根据融合预测模型校准系数R2曲线选取；

将回归预测数据、时间序列预测数据与测试集数据进行关联合并，生成预测数据集，如图5所示。将时间序列预测数据与回归预测数据进行加权表决，其中加权公式为：

S_i＝w*Y_i+(1-w)*X_i

其中，w为最佳权重参数值取值范围为(0,1)，X_i为回归预测值，Y_i为时间序列预测值，根据校准决定系数Adjusted-R2变化曲线选取最佳w值作为模型参数，其中R2为：

其中，S_i为融合后的预测数据序列，为时间序列真实值，为真实值均值。R2的范围是0到1。其值越接近1，表明方程的变量对y的解释能力越强，这个模型对数据拟合的也较好。选择曲线中R2最接近1值所对应得w值。其中w参数以及上述模型中的参数均可以使用网格搜索法进行超参数优化，也可根据实际情况选取合适的参数值。本实施例使用网格搜索法进行参数调优，获取到最优的参数w，以及R2。至此就得到了每个具有多个维度的时间序列切片的预测数据，保存每个序列的预测结果，用于合并数据。

S6、数据整合。将表决后的时间序列预测数据和回归预测数据进行合并输出。

将步骤5中输出的每个时间序列的预测数据集进行联合操作，进行数据整合，如图6所示，确保联合的列数目以及数据类型匹配，将所有数据整合到最终的预测结果集进行输出。

对比图7和图8可知，基于周期性时间序列与多维度的关联型数据预测方法的预测准确率以及模型可用性上都大大优于传统的时间序列预测算法，融合多维度回归预测后，误差指标大幅减小，R2指数也提升了近10％。通过多维度回归预测可以更好的拟合时间序列预测值，相比只使用单一的时间序列预测，能够获得更趋于真实值的预测数据。可以通过图9和图10，观测曲线数据的偏离程度，融合后的模型曲线更趋于真实数据曲线。可以通过以上分析模型融合前后的预测精准度的改变，可以充分证明模型方法在数据预测上面的可行性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，包括：

2.根据权利要求1所述的基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，所述步骤S1中，处理缺失值为将原始数据中的度量数据列进行零值填充，处理异常值为将弃用数据进行删除，错误数据清洗为对于数据集中出现的负值数据进行修正，数据转换为将字符型时间格式转换为date格式，度量类型数据转换为浮点型格式。

3.根据权利要求1所述的基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，所述步骤S2中，将预处理后的所述原始数据根据不同的id进行数据切分，使其每个id生成对应的一个具有多维度特征的时间序列切片数据集。

4.根据权利要求1所述的基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，所述步骤S3中，为输入的时间序列数据选择时序序列模型，其包含两种算法模型：

u_t＝α*(s_t-s_t-T)+(1-α)*(u_t-1+v_t-1)

v_t＝β*(u_t-u_t-1)+(1-β)*v_t-1

s_t＝γ*(x_t-u_t)+(1-γ)*s_t-T

u_t＝α*(s_t/s_t-T)+(1-α)*(u_t-1+v_t-1)

v_t＝β*(u_t-u_t-1)+(1-β)*v_t-1

s_t＝γ*(x_t/u_t)+(1-γ)*s_t-T

5.根据权利要求4所述的基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，所述步骤S3中，对模型参数的平滑指数、趋势分量、周期性分量、周期、预测跨度、以及跨度单位进行参数优化，得出不同参数下的模型性能曲线；根据均方根误差曲线：

6.根据权利要求5所述的基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，所述步骤S4中，采用XGBoost算法对准备好的训练数据进行模型的训练，在训练过程中，XGBoost利用梯度提升树的方法逐步构建准确的模型；为了获得最佳的回归预测结果，调整XGBoost模型的相关参数，包括学习率、树的数量、树的深度；将测试数据输入到已训练好的模型中，使用该模型进行回归预测；模型将根据输入的特征和已学习的规则输出相应的预测结果，输出回归预测数据X_i。

7.根据权利要求6所述的基于周期性时间序列与多维度的关联型数据预测方法，其特征在于，所述步骤S5中，将所述时间序列预测数据和回归预测数据进行加权输出：

S_i＝w*Y_i+(1-w)*X_i

其中，w为最佳权重参数值取值范围为(0，1)，根据校准决定系数Adjusted-R2变化曲线选取最佳w值作为模型参数，其中R2为：