一个意大利意图分类数据集

Jun, 2023

ITALIC: An Italian Intent Classification Dataset

Alkis Koudounas, Moreno La Quatra, Lorenzo Vaiani, Luca Colomba, Giuseppe Attanasio...

TL;DR这篇研究介绍了 ITALIC，这是一个大规模的意向分类语音数据集，旨在为意大利语提供 SLU 模型和特定语言数据集的开发。结果表明：增加规模和语言适应可以提高语音模型的准确性，单语文本模型的结果超过多语言模型，ITALIC 上的语音识别比现有的意大利基准更具有挑战性。

Abstract

Recent large-scale spoken language understanding datasets focus predominantly on English and do not account for language-specific phenomena such as particular phonemes or words in different lects. We introduce ITALIC, the first large-scale →

spoken language understanding italian intent classification speech dataset language adaptation

发现论文，激发创造

Almawave-SLU：意大利语 SLU 的新数据集

本研究介绍了第一个用于意图检测和语义槽理解的意大利数据集，并使用半自动化过程来建立该数据集，用于各种开源和商业系统的性能基准测试。

Jul, 2019

MASSIVE: 一个包含 510 万个来自 51 个不同语言的多语言自然语言理解数据集

本研究介绍了包含 51 种语言、18 种领域、60 个意图和 55 个插槽的 100 万个标注虚拟助手话语的 MASSIVE 数据集，并给出了用于其上的 XLM-R 和 mT5 模型的实验结果。

Apr, 2022

Taxi1500：1500 种语言文本分类的多语言数据集

通过并行翻译圣经来开发广泛的主题，并利用众包工具收集标记数据，标注英文端的数据，并通过已对齐的诗句将标签映射到其他语言，从而为 1500 多种语言生成文本分类数据集，并对多个现有的多语言语言模型进行广泛基准测试。

May, 2023

意大利语言变体的语音分析

通过利用自我监督学习模型，本研究自动识别意大利不同语言方言的语音样本的地理来源，分析区域语言之间的差异和相似性，揭示这些多样而又密切相关方言之间的关系并对其演化和区域发展进行理解。通过评估多种监督对比学习目标作为预训练和额外的微调目标，实验证明预训练的自我监督模型能够有效地识别语音录制的地区，并结合对比学习在微调中创造出能够明确分开各个区域语言方言的嵌入，展示了结合自我监督预训练和对比学习对于这一任务的价值。

Jun, 2024

PILA：源于供意大利语和拉丁语的历史语言数据集

计算历史语言学试图系统地理解声音变化过程，特别是在没有正式语言记录的时期。为了帮助了解伊特鲁里亚语系的音变，我们引入了 Proto-Italic to Latin (PILA) 数据集，其中包含大约 3000 个来自 Proto-Italic 和拉丁语的形式对。通过对数据集的详细描述，我们展示了 PILA 在计算历史语言学任务和增强其他历史语言学数据集方面的价值。

Apr, 2024

Larth: 埃特鲁里亚语数据集和机器翻译

提供了一个从古埃特鲁里亚语到英语的机器翻译数据集，其中包含来自现有学术资源的 2891 个翻译示例，并通过对不同机器翻译模型进行了基准测试，发现使用小型 Transformer 模型可以达到 10.1 的 BLEU 分数。发布这个数据集有助于促进对这种语言、类似语言或其他资源匮乏语言的未来研究。

Oct, 2023

SIB-200：一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集

我们创建了一个大规模的开源基准数据集 SIB-200，用于解决自然语言理解方面缺乏评估数据集的问题，并在全监督、跨语言迁移和大型语言模型等多个环境中评估，结果显示在众多世界语言中，高资源语言和低资源语言之间仍存在很大差距。我们的研究表明，缺乏预训练多语言语言模型的语言、少数语言家族以及来自非洲、美洲、大洋洲和东南亚地区的语言通常在主题分类数据集上表现最差。希望我们的数据集能鼓励对更多种类语言进行多语言语言模型的包容性评估。

Sep, 2023

LINGUIST: 语言模型指令调整用于生成带有标注的话语，以用于意图分类和插槽标记

本研究首次演示了使用大规模序列到序列 (seq2seq) 模型的指令微调来控制多语种意图和插槽标记数据生成输出的能力，并提出了 LINGUIST 方法，通过在 AlexaTM 5B 上微调实现对 Intent 分类和插槽标记 (IC+ST) 的注释数据生成。在各种实验数据集上对比了较先进的方法，结果表明在少样本（novel intent）和零样本（cross-lingual）条件下 LINGUIST 均显著优于当前技术水平的方法，实现了对多语种数据生成的高效控制。

Sep, 2022

STOP：面向口语任务的语义解析数据集

本文发布了 Spoken Task-Oriented semantic Parsing (STOP) 数据集，这是目前公开可用的最大、最复杂的 SLU 数据集，评估了在有限标注数据情况下改进 SLU 的基于端到端 SLU 系统的低资源领域适应性的性能，并表明端到端 SLU 模型的性能不及级联模型。

Jun, 2022

法语口语语义理解新任务的 MEDIA 基准评估

通过使用语言理解（SLU）的联合模型进行意图分类和槽位填充是一项关键任务。本文介绍了使用半自动方法获取增强版本的 MEDIA 数据集并利用联合模型对意图分类和槽位填充进行了实验的初步结果。

Mar, 2024