使用预训练语言模型进行零样本多语言词义消歧
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
利用教师 - 学生框架从高性能的单语言模型中转移知识,构建了一个基于 MPLMs 的多语言分支模型(MBLM),并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习,我们的方法仅使用任务的监督数据,提高了 MPLMs 的监督性能和零射击性能。
Feb, 2022
本文研究了大规模多语言预训练语言模型是否可以应用于全新的语言对和领域的零 - shot 机器翻译,实验证明对于在其原始预训练语料库中没有包含的英 - 西语言对的临床数据的微调非常成功,是 MMPLMs 实现真正的零 - shot NMT 在临床领域的首次研究。
Oct, 2022
本文提出了一种基于预训练语言模型的无参考学习方法 NPPrompt,能够有效扩展一个预训练模型到多个语言理解任务,且不需要标注数据或附加未标注语料库进行微调。实验结果表明,NPPrompt 在文本分类和 GLUE 基准测试等任务中具有比以前最好的全零样本方法更高的绝对增益。
Dec, 2022
利用大型语言模型 (Knowledge Bases) 中存储的知识,通过适当的提示实现以零 - shot 方式检索 VL transformers 的性能改进,并将 Visual Word Sense Disambiguation 转化为纯粹的文本问答问题。
Oct, 2023
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
Dec, 2023
本文探讨了语言模型在推理时区分词义的能力,并将词义消歧视为文本蕴含问题,通过领域分类的方式在常用语言模型上进行了实验,结果表明这种方法的效果接近于有监督学习系统。
Feb, 2023
通过在一个语言上对多语言预训练语言模型(mPLM)进行微调,再在其他语言上使用它进行预测,零样本跨语言生成通常会出现使用错误语言生成的问题,本研究测试了替代的 mPLMs(如 mBART 和 NLLB),考虑到全微调和适配器参数高效微调,并发现带适配器的 mBART 的性能与相同规模的 mT5 相似,NLLB 在某些情况下具备竞争力,还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。
Oct, 2023
将 LLaMa 适应于 Kinyarwanda、Hausa 和 Luganda 等低资源语言的提示设置是一种计算高效且成本效益的方法,优于翻译和 LAFT,并在所有任务和语言上表现最佳。
Mar, 2024
本文通过将聚类方法应用于提前训练的语言模型的嵌入空间中,展示了在主题和情感分类数据集上,该方法在无需另作准备的情况下显著提高了零 - shot 文本分类的性能;并发现该方法不需要 Fine-tuning 就可以将文本分类;最后,文章还比较了不同 PLM 嵌入空间,并发现即使 PLM 未明确预训练为生成有意义的句子嵌入,它仍然能按主题将文本很好地聚类。
Oct, 2022