AI拟音师出击，轻松骗过人类观众：你听到的电影音效可能来自它们

「我听见雨滴落在青青草地，我听见远方下课钟声响起……」多么浪漫的场景，但你有想过雨滴声和下课钟声是 AI 自动合成的吗？近日，一个叫做 AutoFoley 的机器学习程序横空出世，给电影拟音似乎没有那么麻烦了呢。

机器之心报道，编辑：陈萍。

想象一下你正在看一部恐怖电影：女主角正高度警惕地穿过黑暗的地下室，背景音乐令人毛骨悚然，而一些看不见的生物在阴影中爬行…… 然后——砰！它打翻了一个物体。

倘若没有强烈而恰到好处的音效，这样的场景恐怕很难有那么迷人和恐怖。

https://v.qq.com/x/page/g3135xgos21.html

通常，这些音效由拟音师录制，他们使用大量物体来产生声音。例如：录制玻璃破碎的声音可能需要反复打碎玻璃，直到声音与视频片段非常匹配。但这增加了电影制作的成本和时间。

在最近的一项研究中，研究人员创建了一个名为 AutoFoley 的自动化程序，它可以分析视频帧中的运动，并自主创建与场景相匹配的音效。在一项调查中，大多数参与者表示他们没有发现这些音效是程序制作的。相关论文已于今年 6 月发表在 IEEE Transactions on Multimedia 上。

「自 20 世纪 30 年代以来，在后期制作中利用拟音技术添加音效一直是电影和电视配乐的一个复杂部分，」参与创建 AutoFoley 的德克萨斯大学圣安东尼奥分校教授 Jeff Prevost 解释道。「如果没有拟音师逼真的配音，电影会变得空洞、遥远。然而，拟音声音合成的过程为电影创作增加了大量的时间和成本」。

Prevost 和他的博士生 Sanchita Ghose 对自动拟音系统产生极大兴趣，并着手创建多层机器学习程序 AutoFoley。他们使用 AutoFoley 为 1000 个短片制作音效，这些短片捕捉了许多常见的动作，比如下雨、骑马和滴答作响的时钟。

那么他们是怎么做到的呢？看完论文可能就会明白。

论文简介

论文链接：https://ieeexplore.ieee.org/document/9126216/metrics#metrics

这项研究提出了一个全自动深度学习工具 AutoFoley，可用于合成视频的代表性音轨。与现有的声音预测和生成架构不同，该算法结合了插值技术和时间关系网络（TRN），能够精确识别快速移动视频片段中的动作和帧间关系。该研究将稳健的多尺度循环神经网络（RNN）与卷积神经网络（CNN）相结合，以更好地理解时间尺度上错综复杂的输入 - 输出关联。

首先，该研究创建了两个不同的模型，用于识别视频中的动作并确定合适的声音。

第一个机器学习模型从快速移动的动作片段帧中提取图像特征（如颜色和移动），以确定合适的音效。

第二个模型分析对象在不同帧中的时间关系。通过使用关系推理来比较不同时间的不同帧，进而预测视频中即将发生的动作。

最后一步，合成与其中一个模型预测的活动或移动相匹配的音效。