面向不同语种交流者的语音对话翻译

ACLMay, 2023

面向不同语种交流者的语音对话翻译

Towards Speech Dialogue Translation Mediating Speakers of Different Languages

Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kurohashi

TL;DR本研究提出一项新的任务：针对不同语言的演讲者进行语音对话翻译，构建 SpeechBSD 数据集并进行基线实验，探讨上下文的重要性，提出单语言上下文和双语言上下文两种方式，并使用 Whisper 和 mBART 等方法进行级联语音翻译实验，结果显示在我们的设置中，双语境表现更好。

Abstract

We present a new task, speech dialogue translation mediating speakers of different languages. We construct the SpeechBSD dataset for the task and conduct baseline experiments. Furthermore, we consider

speech dialogue translation dataset context monolingual bilingual

发现论文，激发创造

双语多说话人谈话的上下文神经翻译模型

本文提出了一项翻译双语多说话者会话的任务，并探索了利用源语言和目标语言会话历史的神经网络架构，在 Europarl v7 和 OpenSubtitles2016 数据集上的实验证实了利用对话历史的重要性。

Sep, 2018

多语言任务导向对话的情境语义解析

通过机器翻译自动翻译对话数据集并使用新的上下文语义解析模型，该方法在多个数据集上提高了准确性并创建了高准确度的多语言对话数据集。

Nov, 2021

跨语言迁移学习用于多语言任务导向的对话

本文讨论了在任务导向的对话系统中如何识别用户意图和相应的插槽，并通过多种跨语言转移方法进行数据集训练比较

Oct, 2018

KIT 的 IWSLT 2023 多语言语音翻译系统

本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统，使用了 kNN-MT 方法进行有效适应，该系统远优于其端对端对应物。

Jun, 2023

多语言对话代理的准备工作被低估了

多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性，通过改进训练数据效率的研究趋势，我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪 (DST) 子任务分解为更简单、更适合上下文学习的步骤，我们在多语种任务对话数据集 X-RiSAWOZ 上测试了我们的方法，并在 6 种语言上获得了以每轮对话的 DST 准确性为 55.6% 至 80.3% 的结果，看似比微调模型的 SOTA 结果（60.7% 至 82.8% 的准确性）要差；我们在响应生成 (RG) 子任务上的 BLEU 分数也明显低于 SOTA 的结果。然而，在手动评估验证集后，我们发现通过纠正金标签错误和改进数据集注释模式，我们的启示式 GPT-4 在 DST 方面可以达到 89.6% 至 96.8% 的准确性，并且在不同语言上的响应生成中超过 99% 的正确率。这使我们得出的结论是，当前的自动度量指标严重低估了上下文学习的有效性。

May, 2024

跨语言口语数据意图检测

本文提出了一种用于多语言和跨语言口语数据意图检测的系统性研究，对该研究所介绍的一个新资源（MInDS-14）进行了利用，证明使用机器翻译模型和最先进的多语言句子编码器相结合能够在大多数 MInDS-14 所涵盖的目标语言中产生强大的意图检测器，并提供了针对不同维度（如零 - shot 学习与有限 - shot 学习、翻译方向、语音识别的影响）的比较分析。我们认为这项工作是在比以往的工作更广泛的语言范围内开发和评估多语意图检测器的重要一步。

Apr, 2021

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023

DISPLACE 挑战 2023 摘要 -- 对话环境中的发音者和语言判别

在多语言社会中，非正式对话经常涉及多种语言的混合使用。DISPLACE 挑战对多语言和说话者鉴别技术进行了评估和基准测试，其中 Track-1 专注于多语境的说话者鉴别，而 Track-2 则针对多说话者情境的语言鉴别。该论文详述了挑战、数据集、任务和基准系统，并提供了顶尖系统的概述，强调了在这些对话中系统在普遍商业应用之前需要克服的主要挑战。

Nov, 2023

BiToD: 用于任务导向对话模型的双语多领域数据集

BiToD 是第一个用于多语言任务导向对话建模的双语多域数据集，并为评估双语 ToD 系统和跨语言转移学习方法提供了有效的基准。

Jun, 2021

对话系统中参考消解的跨语言方法

本文关注跨语言环境下的指代消解，探讨了三种不同的方法 -- 词汇去表示，多语种嵌入和机器翻译，并在低资源和大资源设置下进行了比较，发现在低资源的情况下，多语种嵌入和通过数据增强的词汇去表示方法具有显著的提升，但随着目标语言中可用数据量的增加，其增益逐渐减少。在结合机器翻译的情况下，我们可以获得接近目标语言实时数据的性能，仅需将 25％的数据投影到目标语言中。

Nov, 2018