黑科技DeepFake检测方法：利用心跳做信号，还能「揪出」造假模型

伪造人像视频生成技术给社会带来了新的威胁，例如利用逼真的伪造图像和视频进行政治宣传、名人模仿、伪造证据以及其他与身份有关的操作。伴随着这些生成技术的发展，出现了一些被证实有效的 deepfake 检测方法，这些方法具备较高的分类准确率。然而，目前几乎没有任何工作关注 deepfake 视频的来源（即生成 deepfake 视频的模型）。

来自宾汉姆顿大学、英特尔公司的研究人员提出了一种方法，利用视频中的生物信号检测该视频是否伪造。该方法不仅可以区分真假视频，还能够发现 deepfake 视频背后的特定生成模型（其中，生成模型是在 DeepFakes、Face2Face、FaceSwap、NeuralTex 中进行选择）。

一些纯粹基于深度学习的方法尝试使用 CNN 来分类造假视频，CNN 实际上学习的是生成器的残差。该研究认为这些残差包含了更多的信息，可以通过将它们与生物信号分离来揭示伪造细节。观察结果表明，生物信号中的时空模式可以看作是残差的代表性投影。为了证明这一观察结果的合理性，研究人员从真实和虚假视频中提取 PPG 单元，并将其输入到当前最优的分类网络中，以检测每个视频的生成模型。

实验结果表明，该方法对假视频的检测准确率为 97.29%，对假视频背后生成模型的识别准确率为 93.39%。

论文地址：

https://arxiv.org/pdf/2008.11363.pdf

该论文的贡献如下：

提出一种新型 deepfake 视频源头检测方法，为 deepfake 检测研究开启了新的视角；
提出一项新发现：将生成噪声投影到生物信号空间，可以为每个模型创建唯一标识；
提出一种先进的通用 deepfake 检测器，在真假视频分类方面优于现有方法，同时还能预测假视频背后的生成模型，即源生成模型。

利用生物信号检测假视频及其生成模型

生物信号已被证明可以作为真实视频的真实性标志，它也被用作 deepfake 检测的重要生物标志。正如我们所知，假视频中的合成人物无法具备与真视频中人物类似的心跳模式。该研究的关键发现基于这一事实：这些生物信号可以被解释为包含每个模型残差标识变换的假心跳。这催生了对生物信号的新探索，它们不仅可以用来确定视频的真实性，还可以对生成该视频的源模型进行分类。

于是，该研究提出了既能检测 deepfake 视频，又能识别源生成模型的系统，如图 1 所示：

为了连续地捕捉生物信号的特征，研究人员定义了一种新的时空块——PPG 单元。该时空块结合了多种原始的 PPG 信号及其功率谱，并从一个固定的窗口提取。PPG 单元的产生首先需要使用人脸检测器在每一帧中找到人脸。

第二步是从检测到的人脸中提取感兴趣区域（ROI）（图 1d），该区域具有稳定的 PPG 信号。为了有效地提取，研究者使用眼睛和嘴之间的面部区域，以最大限度地增加皮肤暴露。

由于来自人脸不同区域的 PPG 信号之间存在相关性，因此定位 ROI 并测量其相关性成为检测的关键步骤。

第三步需要将非线性 ROI 与矩形图像对齐。该研究使用 Delaunay triangulation [26]，随后对每个矩形使用非线性仿射变换，从而将每个矩形转换为校正图像（rectified image）。

在第四步中，研究者将每个图像分成 32 个相等大小的正方形，并在 ω 帧大小的固定窗口中计算每个正方形的原始 Chrom-PPG 信号，并且这不会干扰人脸检测（图 1e）。然后，计算校正图像中的 Chrom-PPG，因为它能产生更可靠的 PPG 信号。对于每个窗口，现在有 ω × 32 个原始 PPG 值。

现在将它们重组成 32 行、ω 列的矩阵，就形成了 PPG 单元的基础，如图 1f 和图 2 最下面一行的上半部分所示。

最后一步将频域信息添加到 PPG 单元。计算窗口中每个原始 PPG 值的功率谱密度，并将其缩放到 ω 大小。

图 2 的最下面一行显示了从同一个窗口生成的 deepfake PPG 单元示例，第一行是每个窗口的示例帧。

定义完 PPG 单元后，研究者展示了其主要假设：将 deepfake 生成器的残差投影到生物信号空间，可以创造一个独特的模式，并用于检测 deepfake 背后的源生成模型。

实验

该研究提出的系统采用 Python 语言实现，使用 OpenFace 库进行人脸检测，OpenCV 进行图像处理，使用 Keras 实现神经网络。

表 1 列出了在测试集上的 PPG 单元分类结果，其中 VGG19 在区分 4 种不同生成模型和检测 FaceForensics++（FF）真实视频方面达到了最高准确率（图 1f）。像 DenseNet 和 MobileNet 这样的复杂网络由于过拟合，虽然达到了非常高的训练准确率，但在测试集上的效果不如人意。