使用预训练语言模型进行零样本多语言词义消歧

Apr, 2023

使用预训练语言模型进行零样本多语言词义消歧

Translate to Disambiguate: Zero-shot Multilingual Word Sense Disambiguation with Pretrained Language Models

Haoqiang Kang, Terra Blevins, Luke Zettlemoyer

TL;DR本文使用 Contextual Word-Level Translation 扩展了 Pretrained Language Models 来探究 PLM 对跨语言词义的捕捉能力，进而提高零样本单词语义消歧的效果，结果表明我们的方法在多种语言上的效果均好于监督学习基线。

Abstract

pretrained language models (PLMs) learn rich cross-lingual knowledge and can be finetuned to perform well on diverse tasks such as translation and multilingual →

pretrained language models cross-lingual knowledge word sense disambiguation contextual word-level translation zero-shot reasoning

发现论文，激发创造

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022

使用大规模多语言预训练语言模型实现临床领域实际零 - shot 神经机器翻译

本文研究了大规模多语言预训练语言模型是否可以应用于全新的语言对和领域的零 - shot 机器翻译，实验证明对于在其原始预训练语料库中没有包含的英 - 西语言对的临床数据的微调非常成功，是 MMPLMs 实现真正的零 - shot NMT 在临床领域的首次研究。

Oct, 2022

预训练语言模型可完全零样本学习

本文提出了一种基于预训练语言模型的无参考学习方法 NPPrompt，能够有效扩展一个预训练模型到多个语言理解任务，且不需要标注数据或附加未标注语料库进行微调。实验结果表明，NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。

Dec, 2022

语言模型作为视觉词义消歧的知识库

利用大型语言模型 (Knowledge Bases) 中存储的知识，通过适当的提示实现以零 - shot 方式检索 VL transformers 的性能改进，并将 Visual Word Sense Disambiguation 转化为纯粹的文本问答问题。

Oct, 2023

大型语言模型的零样本文本分类器

利用零样本学习采用递进性思维提示，与传统的问答格式相比，GPT 模型在文本分类问题上具备零样本分类器的能力，有效地利用提示策略在各种文本分类场景中展现出较好的性能。

Dec, 2023

语言模型了解单词义项吗？使用语言模型和领域库进行零样本词义消歧

本文探讨了语言模型在推理时区分词义的能力，并将词义消歧视为文本蕴含问题，通过领域分类的方式在常用语言模型上进行了实验，结果表明这种方法的效果接近于有监督学习系统。

Feb, 2023

预训练的多语言语言模型在零差生成中的实证研究

通过在一个语言上对多语言预训练语言模型（mPLM）进行微调，再在其他语言上使用它进行预测，零样本跨语言生成通常会出现使用错误语言生成的问题，本研究测试了替代的 mPLMs（如 mBART 和 NLLB），考虑到全微调和适配器参数高效微调，并发现带适配器的 mBART 的性能与相同规模的 mT5 相似，NLLB 在某些情况下具备竞争力，还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。

Oct, 2023

低资源语言中大型语言模型的少样本跨语言迁移

将 LLaMa 适应于 Kinyarwanda、Hausa 和 Luganda 等低资源语言的提示设置是一种计算高效且成本效益的方法，优于翻译和 LAFT，并在所有任务和语言上表现最佳。

Mar, 2024

通过聚类表示，使预训练语言模型成为更好的零样本学习器

本文通过将聚类方法应用于提前训练的语言模型的嵌入空间中，展示了在主题和情感分类数据集上，该方法在无需另作准备的情况下显著提高了零 - shot 文本分类的性能；并发现该方法不需要 Fine-tuning 就可以将文本分类；最后，文章还比较了不同 PLM 嵌入空间，并发现即使 PLM 未明确预训练为生成有意义的句子嵌入，它仍然能按主题将文本很好地聚类。

Oct, 2022