KDD 2023 | 扩散模型还能预测地震和犯罪？清华团队最新研究提出时空扩散点过程

清华大学电子工程系城市科学与计算研究中心最新提出时空扩散点过程，突破已有方法建模时空点过程的受限概率形式和高采样成本等缺陷，实现了灵活、高效且易于计算的时空点过程模型，可广泛用于城市自然灾害、突发事故和居民活动等时空事件的建模与预测，促进城市规划和管理的智能化发展。

时空点过程是具有时间和空间属性的随机事件集合，相关研究方法主要是对随机事件在时间和空间上的分布和演化规律进行建模，这对于许多领域都至关重要，包括地震学、疾病传播、城市流动、环境监测等。然而，以往的研究在建模时通常将时间和空间视为条件独立，无法准确捕捉事件时空之间的复杂相互作用，且计算对数似然需要使用蒙特卡罗来近似积分，这导致对时空点过程的理解和预测存在很大的局限性。

清华大学电子工程系城市科学与计算研究中心近日在 KDD2023 发表论文《Spatio-temporal Diffusion Point Processes》，提出时空扩散点过程（DSTPP）模型，率先实现了对复杂时空联合分布的灵活精准建模。由于不对概率密度函数的参数形式施加任何限制，这种基于扩散模型的点过程方法解决了当前时空建模的一系列困难问题，在捕捉复杂时空动态性方面具有很大潜力。该方法建立了新的生成式时空建模范式，为该领域的研究和应用带来了新的可能性。

论文链接：https://arxiv.org/abs/2305.12403
开源代码：https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processe

针对时空点过程，研究团队提出了全新的参数化框架，利用扩散模型学习复杂的时空联合分布。该框架将目标联合分布的学习分解为多个步骤，每个步骤可由高斯分布准确描述。为了增强每个步骤的学习能力，研究团队在去噪网络中嵌入时空共注意力机制，使其能自适应地捕捉时间和空间复杂的依赖耦合关系。通过这一创新模型，研究团队首次突破了现有解决方案对时空依赖关系的建模限制，为时空点过程提供了新的建模范式。下表展示了 DSTPP 相比已有点过程解决方案的优势。

大量来自流行病学、地震学、犯罪学和城市流动等各领域的实验表明，DSTPP 在性能上显著超越现有解决方案，平均提升幅度超过 50%。进一步深入分析验证了该模型适应不同场景下复杂时空耦合关系的能力。

这一创新研究成果为时空点过程建模提供了全新的思路和方法，具有重要的理论和应用价值。该模型的成功应用将为地震预测、疾病控制和城市规划等领域带来更准确的分析和预测能力，助力城市发展和人类福祉。

值得注意的是，该项目的论文、代码和数据集均已开源：

开源地址：
https://github.com/tsinghua-fib-lab/Spatio-temporal-Diffusion-Point-Processe

一、效果展示

下面展示了不同数据集（地震，高斯霍克斯过程，流行病传播）的去噪过程。

二、方法概览

2.1 扩散去噪建模框架

该框架首先设计时空编码器学习历史时空事件的表征，以该表征作为条件，DSTPP 旨在学习未来事件的时空联合分布模型。具体而言，对于序列中的每个事件，该方法将扩散过程建模为在空间和时间域上的马尔科夫过程，逐步向空间和时间值添加微小高斯噪声，直到它们被破坏城纯高斯噪声。在时空场景下，向时间和空间域添加噪声的过程类似于图像场景（噪声独立地应用于每个像素），DSTPP 通过以下方式在空间和时间域上分别进行独立扩散：

相反地，DSTPP 将下一步事件的预测建模为从第 K 步到第 0 步的逆向去噪迭代过程。时间和空间的去噪过程依赖于前一步中获得的彼此之间的信息，而下一步的预测值以时间和空间条件独立的方式进行建模，具体公式如下：

通过这种方式，DSTPP 成功将时空联合分布的建模分解为单步条件独立建模，而组合起来是联合建模的形式，实现了对时空联合分布的有效建模。下面罗列了 DSTPP 的训练和采样算法，这些算法训练稳定，易于实现。

2.2 网络架构

针对网络架构，研究团队在时空编码器部分提出使用基于 Transformer 的架构来学习历史时空表征，在时空扩散部分提出时空共注意力网络来参数化噪声预测网络。在每个去噪步骤中，时空共注意力网络同时执行空间和时间注意力，以捕捉二者之间的细粒度交互。不同去噪步骤共享相同的网络结构，都是基于历史表征，上一步预测得到的时空结果和去噪步数 k 的位置编码，来预测下一步的时空噪声。

三、实验结果

研究团队将 DSTPP 与最先进的时空点过程方法进行比较，并在 8 个数据集（所有数据集均已开源）进行了大量的实验。在连续空间情形下中，论文使用了两个仿真数据集和四个真实世界数据集，涵盖了广泛的领域，包括地震学，人类移动、流行病传播、城市单车使用，以及模拟的霍克斯高斯混合过程和风车结构数据。此外，论文还使用了两个真实世界的离散数据集，包括犯罪数据和出租车数据，它们的空间标签是离散的街区。

研究团队将所提的 DSTPP 与一系列最先进的建模方法进行对比，这些方法可以分为三类：空间点过程模型，时间点过程模型，时空点过程模型。针对时空点过程，可以自由组合已有的空间点过程和时间点过程来进行建模。结果显示，DSTPP 在所有数据集上的多个评估指标上均取得了最佳表现，相比最佳基线模型平均提升超过 50%。

为了更深入地理解去噪过程中的时空相互依赖关系，研究团队对共同注意力权重进行了深入分析。并构造一个新的的仿真数据集，该数据的时空两个维度是完全独立的，因此可以验证所设计的时空共同注意力机制是否可以学习不同的时空相互依赖关系。下图展示了在去噪过程中时间和空间维度在彼此和自身上的注意力权重变化情况。在时空耦合数据集上，随着去噪过程的进行，时间和空间维度逐渐向彼此分配注意力；而在时空独立数据集上，两个维度几乎没有相互分配注意力权重。这表明 DSTPP 可以自适应地学习时间和空间之间的各种相互作用机制。

作者：苑苑

文章来源：【机器之心】