从空气中诞生：零样本跨语言关键词检测是否比无监督更好？

Feb, 2022

从空气中诞生：零样本跨语言关键词检测是否比无监督更好？

Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better Than Unsupervised?

Boshko Koloski, Senja Pollak, Blaž Škrlj, Matej Martinc

TL;DR本文旨在探究是否可以利用预训练的多语言语言模型，对于没有训练数据的语言进行零样本跨语言关键字提取，并且比较它们与无监督关键字提取器的表现差异。研究结果表明，预训练模型在所有六种语言中都能在零样本条件下，比无监督模型表现更好。

Abstract

keyword extraction is the task of retrieving words that are essential to the content of a given document. Researchers proposed various approaches to tackle this problem. At the top-most level, approaches are divided into ones that require training - supervised and ones that do not -

keyword extraction unsupervised pretrained models cross-lingual low-resource languages

发现论文，激发创造

零样本学习的跨语言上下文主题模型

本文介绍了一种零射击跨语言主题模型，利用迁移学习来处理多个语言的数据集，以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题，并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性，结果表明所转移的主题是连贯且稳定的，具有潜在的未来研究方向。

Apr, 2020

无平行语料的零样本跨语言迁移

通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Oct, 2023

零样本跨语言图像检索与标记

本论文探讨采用跨语言预训练的零样本方法来学习多模态表示，提出建立跨语言图像检索模型的简单实用方法，并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集（XTD10）的零样本模型性能，证明跨语言模型可用于零样本的下游任务，如多语言图像标记。

Sep, 2021

大型语言模型作为零样本关键词抽取器的初步实证研究

零 - shot 关键短语提取通过无需人工注释数据来构建关键短语提取器，挑战在于其限制了人工干预，然而零 - shot 设置有效地减少了数据标注所需时间和精力。通过对预训练大型语言模型（如 ChatGPT 和 ChatGLM）的最新尝试，在零 - shot 设置中取得了有希望的性能，这激发了我们对基于提示方法进行探索。通过实验结果发现，与现有最先进的无监督和监督模型相比，ChatGPT 在关键短语提取任务上仍有很大的改进空间。

Dec, 2023

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

CrossAligner & Co: 面向任务的跨语言自然语言理解的零 - shot 传递方法

CrossAligner 是一种实现零 - shot 跨语言传递任务知识的有效方法，利用未标记并行数据进行学习对齐，其细调语言模型优于预期。

Mar, 2022

教新狗古技：利用零 - shot 学习复苏多语言检索

本文旨在解决搜索引擎在非英语语言中的信息检索问题，并提出了基于预训练的多语言语言模型的检索系统，能有效提高阿拉伯语，普通话和西班牙语的检索准确性，并通过在英语数据集中增加目标语言样例来改进性能。

Dec, 2019

分析监督式 NLP 任务中的零样本跨语言迁移

本文论述了跨语言零 - shot 迁移的问题，并通过对 XLM-RoBERTa 进行实验，研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验（STS）中表现最强，情感分析次之，机器阅读理解中表现最弱。

Jan, 2021

法律主题分类中实现逼真的零 - shot 跨语言转移

本文讨论使用 MultiEURLEX 数据集进行零样本跨语言转移的法律主题分类，介绍了新版本的数据集和使用基于翻译的方法相对于之前最佳的跨语言预训练模型调参的方法的改进，同时提出了一种基于双语教师 - 学生的零样本转移方法。

Jun, 2022

低资源语言中使用多语情感词典的零样本情感分析

通过使用多语种词典进行预训练，本文在低资源语言中增强了多语种语言模型的功能，在 34 种语言中进行了零样本情感分析任务，包括 6 种高 / 中资源语言，25 种低资源语言和 3 个代码混合数据集。结果显示，使用多语种词典进行预训练能够实现更好的零样本性能，而不使用句级情感数据，相比于基于英文情感数据集和大语言模型如 GPT-3.5，BLOOMZ 和 XGLM 的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。

Feb, 2024