一个意大利意图分类数据集
本研究介绍了第一个用于意图检测和语义槽理解的意大利数据集,并使用半自动化过程来建立该数据集,用于各种开源和商业系统的性能基准测试。
Jul, 2019
本研究介绍了包含 51 种语言、18 种领域、60 个意图和 55 个插槽的 100 万个标注虚拟助手话语的 MASSIVE 数据集,并给出了用于其上的 XLM-R 和 mT5 模型的实验结果。
Apr, 2022
通过并行翻译圣经来开发广泛的主题,并利用众包工具收集标记数据,标注英文端的数据,并通过已对齐的诗句将标签映射到其他语言,从而为 1500 多种语言生成文本分类数据集,并对多个现有的多语言语言模型进行广泛基准测试。
May, 2023
通过利用自我监督学习模型,本研究自动识别意大利不同语言方言的语音样本的地理来源,分析区域语言之间的差异和相似性,揭示这些多样而又密切相关方言之间的关系并对其演化和区域发展进行理解。通过评估多种监督对比学习目标作为预训练和额外的微调目标,实验证明预训练的自我监督模型能够有效地识别语音录制的地区,并结合对比学习在微调中创造出能够明确分开各个区域语言方言的嵌入,展示了结合自我监督预训练和对比学习对于这一任务的价值。
Jun, 2024
计算历史语言学试图系统地理解声音变化过程,特别是在没有正式语言记录的时期。为了帮助了解伊特鲁里亚语系的音变,我们引入了 Proto-Italic to Latin (PILA) 数据集,其中包含大约 3000 个来自 Proto-Italic 和拉丁语的形式对。通过对数据集的详细描述,我们展示了 PILA 在计算历史语言学任务和增强其他历史语言学数据集方面的价值。
Apr, 2024
提供了一个从古埃特鲁里亚语到英语的机器翻译数据集,其中包含来自现有学术资源的 2891 个翻译示例,并通过对不同机器翻译模型进行了基准测试,发现使用小型 Transformer 模型可以达到 10.1 的 BLEU 分数。发布这个数据集有助于促进对这种语言、类似语言或其他资源匮乏语言的未来研究。
Oct, 2023
我们创建了一个大规模的开源基准数据集 SIB-200,用于解决自然语言理解方面缺乏评估数据集的问题,并在全监督、跨语言迁移和大型语言模型等多个环境中评估,结果显示在众多世界语言中,高资源语言和低资源语言之间仍存在很大差距。我们的研究表明,缺乏预训练多语言语言模型的语言、少数语言家族以及来自非洲、美洲、大洋洲和东南亚地区的语言通常在主题分类数据集上表现最差。希望我们的数据集能鼓励对更多种类语言进行多语言语言模型的包容性评估。
Sep, 2023
本研究首次演示了使用大规模序列到序列 (seq2seq) 模型的指令微调来控制多语种意图和插槽标记数据生成输出的能力,并提出了 LINGUIST 方法,通过在 AlexaTM 5B 上微调实现对 Intent 分类和插槽标记 (IC+ST) 的注释数据生成。在各种实验数据集上对比了较先进的方法,结果表明在少样本(novel intent)和零样本(cross-lingual)条件下 LINGUIST 均显著优于当前技术水平的方法,实现了对多语种数据生成的高效控制。
Sep, 2022
本文发布了 Spoken Task-Oriented semantic Parsing (STOP) 数据集,这是目前公开可用的最大、最复杂的 SLU 数据集,评估了在有限标注数据情况下改进 SLU 的基于端到端 SLU 系统的低资源领域适应性的性能,并表明端到端 SLU 模型的性能不及级联模型。
Jun, 2022
通过使用语言理解(SLU)的联合模型进行意图分类和槽位填充是一项关键任务。本文介绍了使用半自动方法获取增强版本的 MEDIA 数据集并利用联合模型对意图分类和槽位填充进行了实验的初步结果。
Mar, 2024