NeurIPS 2023 | DASpeech：快速高质量的语音到语音翻译

语音到语音翻译是目前备受关注的一个话题，旨在实现从一种语言的语音到另一种语言的语音之间的转换，在国际会议、跨国旅游、视频直播等许多场景中都有着广泛的应用前景。例如在《流浪地球2》中，尽管各国宇航员使用的语言不同，但可以借助语音到语音翻译技术实现跨语言无障碍交流。

本文介绍了来自中国科学院计算技术研究所的语音到语音翻译模型 DASpeech，实现了快速且高质量的语音到语音翻译，该工作目前已被机器学习领域顶级会议 NeurIPS 2023 录用。

论文题目：

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

论文链接：

https://arxiv.org/pdf/2310.07403.pdf

代码链接：

https://github.com/ictnlp/DASpeech

音频样例：

https://ictnlp.github.io/daspeech-demo/

一、背景

语音到语音翻译（Speech-to-Speech Translation，S2ST）旨在实现从源语音到目标语音的转换，在近年来受到了广泛关注。由于语音信号本身的复杂性，语音到语音翻译相比常规的机器翻译任务而言更具挑战性。2019 年，来自谷歌的研究者首先提出了 Translatotron [1]，通过在训练阶段引入辅助任务，成功实现了第一个端到端 S2ST 的模型。随后，研究者们提出采用语音的离散表示作为训练目标，例如 UWSpeech [2] 和 S2UT [3]，相比采用梅尔谱作为训练目标达到了更好的性能。

然而，上述模型的翻译质量仍然不够理想。为了进一步提高翻译质量，近年来，研究者们提出了两阶段模型（2-pass model），将任务分解为语音到文本翻译和语音合成两个子任务。两阶段模型首先使用一个文本解码器生成目标文本，紧接着语音解码器基于文本解码器的表示生成目标语音，模型整体仍然是端到端。

两阶段模型的代表性工作包含谷歌提出的 Translatotron 2 [4] 和 Meta 提出的 UnitY [5]。近期，Meta 发布的 Seamless Communication 项目 [6] 同样采用了两阶段解码结构。

尽管两阶段解码结构实现了更高的翻译质量，但目前普遍采用的自回归解码器存在解码时延高的问题，同时由于语音序列的长度通常为文本序列长度的几十倍，解码速度更是十分缓慢。近期，研究者们提出了首个非自回归 S2ST 模型 TranSpeech [7] ，使模型解码速度大幅提高。然而，受限于非自回归模型的建模能力，TranSpeech 的翻译质量相比自回归的 S2UT 模型还有一定差距，相比两阶段模型更是相差甚远。因此，如何同时实现翻译质量高、解码速度快的语音到语音翻译模型，是一个十分有挑战性的难题。

二、方法

2.1 模型结构

本文提出了首个两阶段解码的非自回归 S2ST 模型 DASpeech。DASpeech 在模型结构上包含 3 个模块：语音编码器、文本解码器、语音解码器。其中语音编码器基于常规的 Conformer 结构，对输入语音的 filter-bank 特征进行编码得到语音表示。文本解码器基于 DA-Transformer [8] 的解码器结构、语音解码器基于 FastSpeech 2 [9] 结构。接下来分别对 DA-Transformer 和 FastSpeech 2 进行介绍。

DA-Transformer 是目前最先进的非自回归机器翻译模型，它的解码器隐状态被组织为一个有向无环图（Directed Acyclic Graph，DAG），每个结点与比自己编号大的所有结点之间均有一条有向边相连。DA-Transformer 通过 DAG 中不同的路径来同时建模不同译文，有效缓解了非自回归机器翻译中的多峰性问题。

最终，DA-Transformer可通过以下目标函数进行训练：

此处的求和可通过动态规划求解。

FastSpeech 2 是一种非自回归语音合成模型，能够并行地从输入的音素序列生成语音的梅尔谱。FastSpeech 2 通过引入方差适配器（Variance Adaptor）有效缓解了 TTS 里一对多映射的问题，实现了快速高质量的语音合成。DASpeech 采用了基于 FastSpeech 2 的语音解码器，但本文提出的训练方法（见下文）不依赖于特定的 TTS 模型结构，理论上适用于所有更加先进的 TTS 模型。

2.2 模型训练

2.3 模型解码

三、实验

3.1 主实验

本文主要在 CVSS 数据集上进行了实验，与一阶段模型 S2UT、Translatotron，两阶段模型 UnitY、Translatotron 2，非自回归模型 TranSpeech，以及级联系统，在翻译质量和解码速度两方面进行对比。如下表所示，可以得到以下结论：

与一阶段模型 S2UT、Translatotron 相比，DASpeech 的翻译质量取得大幅提升，同时解码速度可达到最高 18 倍以上的加速比；
与两阶段模型 UnitY、Translatotron 2 相比，DASpeech 的翻译质量能够与之持平，同时解码速度有着大幅提升；
与非自回归模型 TranSpeech 相比，DASpeech 在翻译质量和解码速度两方面都有着明显的优势，同时 DASpeech 不再依赖于知识蒸馏和迭代解码；
与级联系统相比，DASpeech 的翻译质量有着明显优势，验证了本文提出的期望路径训练算法的有效性。

3.2 解码效率分析

为了进一步深入分析 DASpeech 相比其他模型在解码效率上的优势，本文进行了以下两个分析实验。左图展示了模型对于不同长度的语音输入的解码时延，可以看到，自回归模型的解码时延会随着输入语音的长度变大而明显增加，相比之下，非自回归模型的解码时延几乎不受输入语音长度的影响。

DASpeech 在所有输入语音长度下都取得了最低的解码时延，在输入语音较长的情况下相比 S2UT 可以实现超过 20 倍的解码加速。右图展示了不同模型在翻译质量和解码速度之间的权衡，可以看到，DASpeech 在所有模型中实现了最佳的权衡，同时实现了翻译质量高、解码速度快的语音到语音翻译模型。

3.3 声音克隆能力

端到端 S2ST 相比级联系统的一个优势是有望在生成的目标语音中保持源语音的副语言信息。本文通过计算源语音与目标语音之间的说话人相似度，来衡量模型的声音克隆能力。

如下表所示，尽管 DASpeech 没有通过额外的模块建模说话人信息，但模型内生的具备了一定的声音克隆能力，明显超过了现有的基线模型。可根据本文提供的音频样例更加直观的感受：https://ictnlp.github.io/daspeech-demo/。

四、总结

本文提出了首个两阶段解码的非自回归语音到语音翻译模型 DASpeech，首次实现了翻译质量高、解码速度快的语音到语音翻译，在二者的权衡上大幅超越现有所有模型。DASpeech 同时具备一定的声音克隆能力，能够在翻译过程中保持源说话人的音色。

欢迎关注我们之前在 ACL 上发表的关于语音翻译的系列工作：

[1] Fang and Feng. Understanding and Bridging the Modality Gap for Speech Translation. ACL 2023.

[2] Fang and Feng. Back Translation for Speech-to-text Translation Without Transcripts. ACL 2023.

[3] Zhou et al. CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation. ACL 2023.

[4] Fang et al. STEMM: Self-learning with Speech-text Manifold Mixup for Speech Translation. ACL 2022.

参考文献

[1] Jia et al. Direct speech-to-speech translation with a sequence-to-sequence model. InterSpeech2019.

[2] Zhang et al. Uwspeech: Speech to speech translation for unwritten languages. AAAI 2021.

[3] Lee et al. Direct Speech-to-Speech Translation With Discrete Units. ACL 2022.

[4] Jia et al. Translatotron 2: High-quality direct speech-to-speech translation with voice preservation. ICML 2022.

[5] Inaguma et al. UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units. ACL2023.

[6] https://ai.meta.com/research/seamless-communication/

[7] Huang et al. TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation. ICLR 2023.

[8] Huang et al. Directed Acyclic Transformer for Non-Autoregressive Machine Translation. ICML 2022.

[9] Ren et al. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. ICLR 2021.

Illustration From IconScout By WOOBRO LTD