跨语言结构提取的上下文标签投影

Sep, 2023

跨语言结构提取的上下文标签投影

Contextual Label Projection for Cross-Lingual Structure Extraction

Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng

TL;DR通过使用 CLAP 方法，首先将文本翻译成目标语言，并使用翻译后的文本作为上下文对标签进行语境翻译，从而提高了翻译标签的准确性。在事件论证提取等结构提取任务上，CLAP 相较于其他方法在中文和阿拉伯语 ACE05 数据集上提高了 2-2.5 个 F1 分数。

Abstract

Translating training data into target languages has proven beneficial for cross-lingual transfer. However, for structure extraction tasks, translating data requires a →

structure extraction label projection cross-lingual transfer clap pseudo-training data

发现论文，激发创造

跨语言转移的令人沮丧的简单标签投影

本文分析了在 42 种语言和三个任务（问答，命名实体识别，事件抽取）上，将标注数据转换为多种语言的效果以及不同的标签投影方法，发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。

Nov, 2022

跨语言标签投影的约束解码

零 - shot 跨语言迁移利用多语言 LLMs 已成为一种流行的学习范式，适用于低资源语言没有标记的训练数据。然而，在涉及单词和短语细粒度预测的 NLP 任务中，零 - shot 跨语言迁移学习性能远远落后于有监督的微调方法。因此，通过使用翻译和标签映射来进一步提高性能是很常见的。本文中，我们探索了一种通过限制解码进行标签映射的新方法，克服了先前提到的问题。我们的新方法不仅能保持翻译文本的质量，还具有适用于训练和测试数据的多样性。我们在两个跨语言迁移任务上进行评估，分别是命名实体识别和事件论证抽取，涵盖了 20 种语言。结果表明，我们的方法比现有的基于标记的方法具有更好的性能，并且比依赖于外部词对齐的其他标签映射方法表现更好。

Feb, 2024

T-Projection：用于序列标注任务的高质量注释投射

本文提出了一种新的基于预训练文本到文本语言模型和最先进的机器翻译技术的注释投影方法［T-Projection］，通过将标签投影任务分解成候选集生成步骤和候选集选择步骤来自动产生标注数据，得到的结果在三个下游任务和五种不同语言中的平均 F1 分数比以前的方法提高了 8 个百分点以上。

Dec, 2022

多语言 LLM 通过对齐更好地进行跨语言上下文学习

本研究分析了在跨语言文本分类中使用 in-context learning 的问题，并提出了一种称为 Cross-lingual In-context Source-Target Alignment (X-InSTA) 的 prompt 构建策略，该策略在 44 个不同的跨语言数据集上表现出了很好的性能。

May, 2023

CLASP：用于语义解析的少样本跨语言数据增强

本研究提出 CLASP 方法，利用合成数据从 AlexaTM 20B 中挖掘出更多的数据，用以改善低资源的语义解析，实现在多国语言上的有效应用。

Oct, 2022

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

T-CLAP：时间增强对比语言 - 音频预训练

使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述，并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP)，结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。

Apr, 2024

语言模型与跨语言序列标注之间的桥梁

本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距，并以多语言对齐为目标对跨语言机器阅读理解（xMRC）进行改进。实验结果表明，这些方法在多个 xSL 基准测试中取得了显著优越的结果，并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。

Apr, 2022

跨语言命名实体识别中的实体投影机器翻译

利用机器翻译提升跨语言命名实体识别中的注释映射技术并得到优越的实验结果。

Aug, 2019

大型视觉语言模型的少样本自适应研究

通过引入适应真实场景需求的新方法，我们综合评估了一个广泛的数据集和场景，发现其在实践中始终优于现有技术，同时作为更高效的替代方案。

Dec, 2023