无需迁移的数据高效多语言槽位标注

May, 2023

无需迁移的数据高效多语言槽位标注

Transfer-Free Data-Efficient Multilingual Slot Labeling

Evgeniia Razumovskaia, Ivan Vulić, Anna Korhonen

TL;DR利用 TWOSL 方法，可以跨语言自动抽取并归类任务相关信息，即使缺乏标注数据，也能完成快速且数据高效的多语种对话标记。

Abstract

slot labeling (SL) is a core component of task-oriented dialogue (ToD) systems, where slots and corresponding values are usually language-, task- and domain-specific. Therefore, extending the system to any new la

slot labeling multilingual task-oriented dialogue transfer-free data-efficient

发现论文，激发创造

跨语言口语理解的迁移学习

本文介绍如何通过在多语言之间传递数据以减少成本，从而提高对新语言的口语理解系统。我们的多任务 SLU 框架在不同语言上经过评估，结果表明我们的单语言模型优于最先进的技术，我们可以大大减少引导新语言口语理解系统所需的数据量，同时，虽然多任务训练比单独训练要好，但不同的权重转移设置可能对不同的 SLU 模块最有效。

Apr, 2019

基于源批判的强化学习，用于将口语语言理解迁移到新语言

本研究旨在通过使用特定领域的平行语料库进行语言转移，利用增强学习方法进一步微调翻译器，从而在中英语言转移方面取得显著的成功，提高了相对于传统方法的领域分类准确率 22%，槽提取 F1 得分 71% 以上。

Aug, 2018

从遮蔽语言建模到翻译：非英语辅助任务提高零样本口语理解

本文提出了跨语言意图和槽位检测的新基准，称为 xSID，并探讨了使用联合学习方法和机器翻译转移学习来处理数据稀缺的情况。结果表明，对于槽位填充任务，联合学习任务加遮掩语言模型是有效的，而机器翻译转移学习对于意图分类任务效果最好。

May, 2021

多语言一对多端到端语音翻译

本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性，结果表明，使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果，其中当对相似语言进行翻译时效果更为显著，特别是数据不足的情况下。

Oct, 2019

通过预训练语言模型探测和多层对比学习实现槽位归纳

在本研究中，我们研究了无需显式标注的词级槽位注释的情况下，用于识别 Task-oriented Dialogue Systems 中的槽位边界的槽位感知（Slot Induction）任务，并提出利用无监督预训练语言模型（PLM）探测和对比学习机制，结合可从 Task-oriented Dialogue Systems 中获得的句级意图标签信号，从而在两个自然语言理解基准数据集上展现出有效性，同时能够填补与词级监督模型之间的差距。当推广到新兴意图时，我们的槽位感知目标还提供了改进的槽位标签表示，从而提高了槽位填充任务的性能。

Aug, 2023

跨语言 NLU 的端到端槽位对齐和识别

本文提出了一种新的端到端模型，可以跨语言传递自然语言理解（NLU）系统，同时对目标词槽进行对齐和预测。我们提出了 MultiATIS ++ ，一个跨越四种语言系的九种语言的多语言 NLU 语料库，并使用 MultiATIS++ 对我们的方法进行评估。结果表明，我们的方法在大多数语言上都优于使用 fast-align 的简单标签投影方法，并在只有一半的训练时间的情况下达到了更复杂、最先进的投影方法的竞争性性能。我们将 MultiATIS++ 语料库发布给社区以继续未来的跨语言 NLU 研究。

Apr, 2020

跨语言迁移学习用于多语言任务导向的对话

本文讨论了在任务导向的对话系统中如何识别用户意图和相应的插槽，并通过多种跨语言转移方法进行数据集训练比较

Oct, 2018

面向跨语言口语理解的标签感知多层对比学习

本研究提出一个基于对话、槽位和单词水平的对比学习框架来显式对齐跨语言口语理解中隐含语义结构的多语种混合方法，通过引入硬负样本和标签关联联合模型，取得了两个零 - shot 跨语言口语理解的基准数据集中显著的性能改进。

May, 2022

高效槽位标注

对话系统中的轮寻标记是其重要组成部分之一，本研究提出了一种轻量级方法，可以在与基于预训练语言模型相当或更好的表现的同时，可训练参数量减少了近 10 倍，使其尤其适用于现实世界中的工业场景。

Jan, 2024

Multi2WOZ: 一个强大的多语言数据集和面向任务型对话的预训练

本文介绍了 Multi2WOZ 多语言多领域任务导向对话数据集，并提出了一种用于传输任意下游任务的多语言对话 PrLM 的新框架，证明了在多数情况下，最佳表现是将（I）针对目标语言的会话专业化与（ii）少次转移结合在一起，并且我们展示了针对目标语言的会话专业化可以实现下游任务的异常样本效率的少次转移。

May, 2022