跨语言结构提取的上下文标签投影
本文分析了在 42 种语言和三个任务(问答,命名实体识别,事件抽取)上,将标注数据转换为多种语言的效果以及不同的标签投影方法,发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。
Nov, 2022
零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式,适用于低资源语言没有标记的训练数据。然而,在涉及单词和短语细粒度预测的 NLP 任务中,零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此,通过使用翻译和标签映射来进一步提高性能是很常见的。本文中,我们探索了一种通过限制解码进行标签映射的新方法,克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量,还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估,分别是命名实体识别和事件论证抽取,涵盖了 20 种语言。结果表明,我们的方法比现有的基于标记的方法具有更好的性能,并且比依赖于外部词对齐的其他标签映射方法表现更好。
Feb, 2024
本文提出了一种新的基于预训练文本到文本语言模型和最先进的机器翻译技术的注释投影方法[T-Projection],通过将标签投影任务分解成候选集生成步骤和候选集选择步骤来自动产生标注数据,得到的结果在三个下游任务和五种不同语言中的平均 F1 分数比以前的方法提高了 8 个百分点以上。
Dec, 2022
本研究分析了在跨语言文本分类中使用 in-context learning 的问题,并提出了一种称为 Cross-lingual In-context Source-Target Alignment (X-InSTA) 的 prompt 构建策略,该策略在 44 个不同的跨语言数据集上表现出了很好的性能。
May, 2023
本研究提出 CLASP 方法,利用合成数据从 AlexaTM 20B 中挖掘出更多的数据,用以改善低资源的语义解析,实现在多国语言上的有效应用。
Oct, 2022
提出一种基于自然语言监督学习的音频概念学习方法 CLAP,通过两个编码器和对比学习将音频和文本描述连接到多模态空间中,从而实现了零样本性能,其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。
Jun, 2022
使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。
Apr, 2024
本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距,并以多语言对齐为目标对跨语言机器阅读理解(xMRC)进行改进。实验结果表明,这些方法在多个 xSL 基准测试中取得了显著优越的结果,并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。
Apr, 2022