「我听见雨滴落在青青草地,我听见远方下课钟声响起……」多么浪漫的场景,但你有想过雨滴声和下课钟声是 AI 自动合成的吗?近日,一个叫做 AutoFoley 的机器学习程序横空出世,给电影拟音似乎没有那么麻烦了呢。
机器之心报道,编辑:陈萍。
想象一下你正在看一部恐怖电影:女主角正高度警惕地穿过黑暗的地下室,背景音乐令人毛骨悚然,而一些看不见的生物在阴影中爬行…… 然后——砰!它打翻了一个物体。
倘若没有强烈而恰到好处的音效,这样的场景恐怕很难有那么迷人和恐怖。
https://v.qq.com/x/page/g3135xgos21.html
通常,这些音效由拟音师录制,他们使用大量物体来产生声音。例如:录制玻璃破碎的声音可能需要反复打碎玻璃,直到声音与视频片段非常匹配。但这增加了电影制作的成本和时间。
在最近的一项研究中,研究人员创建了一个名为 AutoFoley 的自动化程序,它可以分析视频帧中的运动,并自主创建与场景相匹配的音效。在一项调查中,大多数参与者表示他们没有发现这些音效是程序制作的。相关论文已于今年 6 月发表在 IEEE Transactions on Multimedia 上。
「自 20 世纪 30 年代以来,在后期制作中利用拟音技术添加音效一直是电影和电视配乐的一个复杂部分,」参与创建 AutoFoley 的德克萨斯大学圣安东尼奥分校教授 Jeff Prevost 解释道。「如果没有拟音师逼真的配音,电影会变得空洞、遥远。然而,拟音声音合成的过程为电影创作增加了大量的时间和成本」。
Prevost 和他的博士生 Sanchita Ghose 对自动拟音系统产生极大兴趣,并着手创建多层机器学习程序 AutoFoley。他们使用 AutoFoley 为 1000 个短片制作音效,这些短片捕捉了许多常见的动作,比如下雨、骑马和滴答作响的时钟。
那么他们是怎么做到的呢?看完论文可能就会明白。
论文简介
论文链接:https://ieeexplore.ieee.org/document/9126216/metrics#metrics
这项研究提出了一个全自动深度学习工具 AutoFoley,可用于合成视频的代表性音轨。与现有的声音预测和生成架构不同,该算法结合了插值技术和时间关系网络(TRN),能够精确识别快速移动视频片段中的动作和帧间关系。该研究将稳健的多尺度循环神经网络(RNN)与卷积神经网络(CNN)相结合,以更好地理解时间尺度上错综复杂的输入 - 输出关联。
首先,该研究创建了两个不同的模型,用于识别视频中的动作并确定合适的声音。
第一个机器学习模型从快速移动的动作片段帧中提取图像特征(如颜色和移动),以确定合适的音效。
第二个模型分析对象在不同帧中的时间关系。通过使用关系推理来比较不同时间的不同帧,进而预测视频中即将发生的动作。
最后一步,合成与其中一个模型预测的活动或移动相匹配的音效。
研究贡献
该研究的贡献如下:
- 首次利用深度神经网络为无声视频片段自动生成拟音音效,而「电影音效」需要的声音变化很大,并且具有明显的时间起始性。
- 提出了一个新的数据集,有助于未来的拟音合成应用。
- 提出了一种高效的预测架构,可基于视觉场景进行逼真、同步的声音合成。
- 证明时间关系网络(TRN)可用于视频 - 声音预测任务。
- 为了对生成的声音进行性能分析,该研究进行了定性、数值实验,并对生成的声音进行了问卷调查。
AutoFoley 实现过程
AutoFoley 的实现包含三个主要步骤:1)声音特征提取;2)基于视频帧预测声音类别;3)声音合成。下图展示了 AutoFoley 基于视觉输入自动生成拟音音轨的过程:
声音特征提取
首先用频谱图分析来计算所有音频文件的特征,将音频信号转换成频谱图来提取音频特征。该研究使用的频谱图包括原始音频的强度和相位信息。
在如下频谱图中,颜色的强度代表每个频率中存在的能量。颜色越亮,说明该频率的音频能量越多。
基于视频的声音预测
该研究提出了两种不同的方法来预测输入视频帧的声音类别:i)帧序列网络(使用内插技术,然后将卷积神经网络(CNN)和 Fast-Slow LSTM(FS LSTM)网络组合使用);ii)帧关系网络(CNN 和时间关系网络的结合)。
声音合成
该研究将相同的声音合成方法应用于上述两种声音类别预测方法。取训练集中每类声音所有频谱图的平均值,然后将其与根据帧序列和帧关系网络分别计算得到的预测声音类别矩阵 sc 相结合。
该研究提出的自动拟音生成模型的算法如下所示:
AutoFoley 效果如何?
该研究创建了一个电影拟音音轨数据集——Automatic Foley Dataset(AFD)。它包含 12 个不同类别的 1000 个视频,每个视频的平均时长为 5 秒。下面两幅图分别展示了 12 个视频类及其相关的数据统计:
定性评估
波形和频谱图分析:为了进行定性评估,该研究展示了 AutoFoley 方法合成声音和原始音轨的波形与频谱图,如下图所示:
分析显示,AutoFoley 最擅长在时间无需与视频完全一致的情况下(如倾盆大雨、噼啪作响的大火)进行配音。但是,当视觉场景包含随时间变化的随机动作(如打字、雷雨)时,AutoFoley 的合成音效可能与视频不同步。
音质矩阵分析:一般来说,声音的质量是根据声音与用户期望的符合程度进行评估的。该论文给出了模型的相关性值(参见表 1)。除了对时间最敏感的动作类别(如打断、切割、脚步声、枪声),与方法 2 相比,模型 1 提供了更高的相关性值(correlation value)。
声音检索实验:此定性任务旨在评估合成声音中是否存在声音类别的语义信息。完整的声音检索实验模型如图 13 所示:
表 2 和表 3 分别给出了最相关的声音生成模型和该研究提出的模型在相同检索任务中的预测准确率结果。实验结果表明,分类器对 AutoFoley 模型生成声音的预测准确率均在 63% 以上。
定量评估
研究者还提供了模型训练和测试过程中的计算损失和准确率详情。
1) 声音类别预测:为了将基于视频帧预测声音类别的准确率进行可视化展示,研究人员在图 14 中给出了模型 1 和模型 2 的归一化混淆矩阵:
2)损失和准确率计算:下表展示了该研究提出的模型在训练和测试阶段的平均 log 损失和准确率。
人类评估结果
论文作者调查了 57 名当地大学生,让他们辨认 AutoFoley 的配音。在评估第一个模型生成的音频时,73% 的被调查学生选择了 AutoFoley 为原声片段,而不是合成片段。在评估第二个模型时,66% 的受访者选择了 AutoFoley 为原声片段。
「我们方法的一个局限性是要求分类主体出现在整个视频帧序列中,」Prevost 表示,同时他还指出 AutoFoley 目前依赖于一个有限拟音类别的数据集。目前 AutoFoley 的研究仍处于早期阶段,Prevost 认为这些限制将在未来研究中得到解决。