近年来,我们目睹到深度学习在时间序列预测方面的研究努力显著增加。深度模型不仅在预测任务中表现出色,还在表示学习方面表现出色,能够提取抽象表示,这些表示可以有效地用于下游任务,如分类和异常检测。然而,现有研究主要集中在批处理学习设置中,假设整个训练数据集在先前就已经可用,并且在学习过程中输入和输出变量之间的关系保持不变。这些方法在现实世界的应用中存在问题,因为概念往往不稳定而随时间变化,这被称为概念漂移(concept drift),未来的数据展现出不同于过去的模式。
比如在上图中海平面的平均值从1881年到2013年不断上升,基线模型即不在新的数据上重新adapt model的方法未能识别新数据中平均值持续漂移的情况。在这些情况下,从头重新训练模型可能会非常耗时。因此,在线训练深度预测模型,通过增量更新预测模型来捕捉环境中不断变化的动态是非常必要的。
在本文中,我们将介绍我们发表于 NeurIPS 2023的文章,《OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling》,OneNet的思想十分简单,它采用了两个不同的模型,一个模型专注于建模时间维度上的相关性,另一个模型专注于建模跨变量之间的依赖关系。
这两个模型都在训练过程中使用相同的训练数据进行独立训练。在测试时,OneNet将强化学习方法引入传统的在线凸规划框架中,允许动态调整权重以线性组合两个模型。这样,OneNet可以同时利用这两种模型的优势,既能处理概念漂移,又能提高预测精度。下文中我们会详细介绍为什么需要两个不同的模型,如何更好的combine两个模型的预测结果。
实验结果表明,OneNet在挑战性数据集上表现尤为出色,误差降低超过50%。以及我们还进行了全面的实验,以研究不同的模型设计选择对模型鲁棒性的影响,包括但不限于instance normalization, variable independence, seasonal-trend decomposition, 以及 frequency domain augmentation。最后,我们系统地比较了现有的基于transformer的模型、基于tcn的模型和基于mlp的模型在面对概念漂移时的鲁棒性。希望我们的实验结果能为之后online time series forecasting的模型设计带来一些启发。
论文链接:https://arxiv.org/abs/2309.12659
代码链接:https://github.com/yfzhang114/OneNet
一、Motivation
如何动态,快速的调整模型让他迅速适应时序数据的变化,这个研究方向被称为Online Time Series Forecasting。实际世界中的在线预测环境存在很大的挑战,如与离线小批量训练相比,存在高噪声梯度问题(只有少量数据点),以及连续的分布偏移问题,这可能导致从历史数据中学习的模型对当前的预测效果不佳。
在本文中,我们首先发现变量的独立性(模型专注于建模跨时间依赖性并独立地预测每个变量)对于模型鲁棒性至关重要。为了验证变量独立性假设的有效性,我们设计了Time-TCN,它仅在时间维度上进行卷积。Time-TCN这个简单的baseline在在线预测方面优于FSNet(目前的SOTA),并在与通常在变量维度上进行卷积的TCN结构相比取得了显著的收益。
尽管变量独立性增强了模型的鲁棒性,但跨变量依赖性对于预测同样至关重要,即对于特定变量,来自其他变量中关联系列的信息可能会改善预测结果。正如在表1中所示,对于具有少量变量的数据集ETTm1和ETTh2,只关注跨时间依赖性的预测器往往会产生较低的性能。然而目前那些旨在同时利用跨变量和跨时间依赖性的模型,如CrossFormer和TS-Mixer,往往表现不如简单的TCN。
为了调查这一现象,我们在图1中可视化了在线自适应过程中不同时间步长的均方误差(MSE),其中分别使用了跨时间模型(Time-TCN)和跨变量模型(TCN)。我们观察到在线自适应过程中MSE波动很大,表明随时间发生了显著的概念漂移。我们还观察到,这两种方法都没有始终表现比另一种更好,表明这两种数据假设都不适用于整个时间序列。这就是为什么依赖像CrossFormer这样的单一模型不能解决这个问题的原因。
现有工作依赖于一个简单的模型,但对于在线时间序列预测来说,随着在线概念漂移的持续变化,数据对模型偏见的偏好也将不断变化。因此,我们需要一种数据依赖策略,以持续更改模型选择策略。
这就是本文的motivation,简单来说,一个模型所带有的model bias不足以面对复杂的concept drift,我们需要两个正交的模型相互补充相互促进。
二、OneNet: Ensemble Learning for Online Time Series Forecasting
2.1 Two-stream forecasters
2.2 Learning the best expert by Online Convex Programming (OCP)
首先我们需要了解,对于 online learning 来说,在线的组合两个模型的预测结果不是一个 novel 的事情,指数梯度下降(EGD)就是一种常用的方法。如果不喜欢下面的数学公式,那么简单描述就是我们给表现好的 forecaster 越来越大的权重,表现差的越来越小的权重,下面框中是对 EGD 的一个大概介绍。
然而,众所周知,指数加权平均预测器在分布发生急剧变化时响应非常迟缓,这是可以理解的因为如果我们一直给变现好的 forecaster 更大的权重,那么在一些它不 work 的 time pieces,我们很难把这个权重扭转过来。也就是说,EGD 算法生成的组合权重w 基于长时间内的历史性能,因此不能快速适应瞬态环境变化。
EGD 做的事情就是我们刚才提到的给表现好的 forecaster 越来越大的权重,表现差的越来越小的权重,而 offline RL 可以理解为一个 linear head,我们将上一个时间步模型的预测以及 ground truth 作为输入,它来预测下一个时间步两个 branch 各自的权重,可以看到,它只依赖于非常短期的信息,因此能够很快的 adapt 到新的 pattern。
三、 Experiments
在本节中,我们将展示以下内容:
(1)所提出的 OneNet 仅使用简单的重新训练策略就实现了卓越的预测性能(与先前的 SOTA 模型相比,均方误差减少了超过 50%);
(2)OneNet 达到了比其他方法更快、更好的收敛性能;
(3)我们进行了彻底的消融研究和分析,以揭示当前先进预测模型的每个设计选择的重要性。
最后,我们介绍了 OneNet 的一个变体,称为 OneNet-,其参数显著更少,但仍然远远超过了先前的 SOTA 模型。
3.1 Online forecasting results
累积性能: 表3展示了不同基线模型在均方误差(MSE)方面的累积性能。特别是,Time-TCN 和 PatchTST 表现出强大的性能,并超过了先前的最先进模型 FSNet。所提出的 OneNet-TCN(TCN 和 Time-TCN 的在线集成)在各种预测时段中超过了大多数竞争基线。
有趣的是,如果组合的分支更强大,例如,OneNet 结合了 FSNet 和 Time-FSNet,实现了比 OneNet-TCN 更好的性能。也就是说,OneNet 可以集成任何先进的在线预测方法或表示学习结构,以增强模型的稳健性。与仅使用一个分支(FSNet 或 Time-TCN)相比,OneNet 的平均 MSE 显著更好,突显了在线集成的重要性。
EGD 相对于平均法提供了显著的好处,突显了每个专家的累积历史性能的重要性。此外,我们观察到 RL-W(只使用RL学习短期权重) 在某些数据集上的性能与甚至更好。因此,我们提出了使用 EGD 更新长期权重和使用离线 RL 学习短期权重的 OCP 块。这一设计在性能上优于所有其他基线。除此之外,我们观察到 OneNet 对模型超参数不敏感。
预测结果可视化在上图中呈现。与难以适应新概念并产生糟糕预测结果的基线相比,OneNet 能够成功捕捉时间序列的模式
3.2 Ablation studies and analysis
实例标准化和季节性趋势分解的影响 如表5所示。结果表明,从 PatchTST 中去除季节性趋势分解组件对其影响有限,无论模型是否进行在线适应。实例标准化(instances normalization)通常用于缓解训练和测试数据之间的分布差异,这对于在线适应不可能时的模型稳健性至关重要。
然而,当进行在线适应时,实例标准化的影响会减小。有趣的是,我们的实验发现,在预测时段较长(24 或 48)时,实例标准化阻碍了 ETTH2、ETTm1 和 WTH 数据集中模型的适应过程。因此,在概念漂移下,仅对时间序列进行零均值和单位标准差的标准化可能不是最佳方法。
变量独立性和频域增强的消融研究:如表11所示,我们观察到使用小波变换的频域增强块比傅立叶变换更具鲁棒性。FEDformer 在泛化方面优于 TCN,但在线适应对性能的影响有限,类似于其他基于 transformer 的模型。值得注意的是,我们发现变量独立性对模型的稳健性至关重要。通过仅在时间维度上卷积,与特征通道无关的TCN,与在特征通道上卷积相比,可以显著降低均方误差,无论此时是否应用在线适应。
现有先进预测模型的比较:结果如表12所示。考虑到所有四个数据集的平均均方误差,所有基于 transformer 的模型和 Dlinear 都优于 TCN 和 Time-TCN。然而,通过在线适应,TCN 结构的预测误差大幅减小,优于 DLinear 和 FEDformer。具体来说,我们展示了当前的基于 transformer 的模型(PatchTST)即使在没有任何在线适应的情况下,也表现出比 TCN 模型更好的泛化性能,特别是在具有挑战性的 ECL 任务中。
然而,我们也注意到 PatchTST 在在线重新训练后基本没有改变。相比之下,TCN 结构可以快速适应移动的分布,而在线更新的 TCN 模型更倾向于在前三个数据集上具有更好的预测误差,而不是适应后的 PatchTST。因此,将这两种结构的优点结合起来,创建一个更加稳健和适应能力更强的模型,可以更好地处理不断变化的数据分布,是有前途的。
四、Conclusion and Future Work
通过我们对具有概念漂移的先进预测模型行为的调查,我们发现在变量数量较多时,跨时间模型表现出更强的稳健性,但在变量数量较少时不如能够建模变量依赖性的模型。此外,由于概念漂移的发生,这个问题变得更加具有挑战性,因为模型偏差的数据偏好在整个在线预测过程中都在动态变化,使得单一模型难以克服。
为此,我们提出了OneNet模型,通过OCP充分利用了两种模型的优势。此外,我们提出通过离线强化学习学习额外的短期权重,以减轻传统策略学习算法中常见的“慢切换现象”。我们的大量实验证明,OneNet能够有效处理各种类型的概念漂移,并在预测性能方面优于先前的方法。
我们还发现,instances normalization在概念漂移下增强了模型的稳健性,但在某些情况下可能会妨碍模型迅速适应新分布的能力。这促使我们进一步探讨是否存在一种规范化技术,既可以减轻分布变化,又可以实现对不断变化的概念的快速适应。此外,尽管我们设计了OneNet的轻量级版本来解决引入额外参数和推断时间的问题,但存在更高效的适应方法的潜力,例如利用NLP/CV社区的提示和高效调整方法,以避免对整个模型进行重新训练。
最后,online ensembling的潜力不仅仅适用于time series data,对于动态变化的环境,包括但不限于online learning,test-time adaptation以及continual test-time adaptation的场景,他都有着相当不错的潜力。
作者:张一帆
来源:公众号【PaperWeekly】
Illustration by IconScout Store from IconScout