优化编码器以改进单语和零样本多语言神经主题建模

ACLApr, 2021

优化编码器以改进单语和零样本多语言神经主题建模

Fine-tuning Encoders for Improved Monolingual and Zero-shot Polylingual Neural Topic Modeling

Aaron Mueller, Mark Dredze

TL;DR本研究提出多种 fine-tuning 编码器的方法，包括在辅助任务中 fine-tuning，构建新的主题分类任务，将主题分类目标直接整合到主题模型训练中，和继续预训练，实验证明在主题分类和主题模型中直接结合主题分类任务的编码器 fine-tuning 能够有效提高主题质量，同时对于跨语言转移来说，编码器 fine-tuning 是最重要的因素。

Abstract

neural topic models can augment or replace bag-of-words inputs with the learned representations of deep pre-trained transformer-based word prediction models. One added benefit when using representations from multilingual models is that they facilitate →

neural topic models pre-trained transformer-based word prediction models zero-shot polylingual topic modeling fine-tuning encoders topic classification

发现论文，激发创造

释放多语言编码器潜力：通过概率校准提升零射击性能

预训练的多语言编码器模型结合校准技术取得了显著的性能提升，适用于零样本多语言任务和语言探索，并且只需很少的训练样本即可获得额外的增强。

Oct, 2023

Poly-encoders: 转换器结构和预训练策略用于快速准确的多句子评分

本文提出了一种新的神经网络编码器 ——Poly-encoder，它通过学习全局注意力特征来提高匹配任务的性能，并对三种常见的匹配方法进行了实验比较，得出了 Poly-encoder 相对于 Cross-encoder 和 Bi-encoder 都更快且更准确的结论，并强调了使用大数据集来进行预训练的重要性。

Apr, 2019

预训练语音编码器的自监督重连：在语音处理中以更少标签更快微调

本文针对预训练语音编码器中的表示空间进行了研究，并通过对比自监督学习构建正对，以实现对表示空间的改进，进而在低资源环境下提高了语音处理任务的收敛速度和表现。

Oct, 2022

训练多语言密集检索模型最佳实践

本研究旨在探讨如何在不同语言中使用基于转换器的双编码器设计实现单语检索，包括使用多语言变压器的交叉语言一般化能力，在多场景下使用最佳实践指南解决单语检索问题，从而为构建低资源语言的搜索应用提供指南和基础。

Apr, 2022

多任务双编码器模型学习跨语言句子表示

探索了一种使用双编码器学习跨语言句子表示的自然环境，以克服多语言神经语言建模中标记化非英语数据的缺乏，并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估，并分析了不同的跨语言嵌入空间。

Oct, 2018

多语言文本编码器在跨语言检索中的应用

通过系统实证分析，我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能，但在经过监督学习优化的条件下，可在句子检索中取得最高准确率，并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量，还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象，这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。

Dec, 2021

跨语言迁移的模型选择

本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models，并提出一种基于机器学习的方法用于模型选择，该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。在广泛的实验中，我们发现这种方法比使用英文验证数据一直可以跨越二十五种语言（包括八种低资源语言）选择更好的模型，并且通常可以达到使用目标语言开发数据进行模型选择的结果

Oct, 2020

语言知识可以增强编码器 - 解码器模型（如果你愿意）

本文探讨了将预训练的编码 - 解码模型（特别是 T5）与语言知识相结合用于预测目标任务时的影响。我们研究了在预测句子的结构语言属性的中间任务上微调 T5 模型是否会改变其在预测句子级复杂性目标任务上的性能。我们的研究包括在意大利语和英语数据集上进行的各种实验，使用了单语和多语 T5 模型以及不同尺寸的模型。无论是在两种语言还是在跨语言配置中，结果表明，从语言学角度出发的中间微调通常对目标任务的性能有积极影响，特别是在模型较小且数据有限的情况下。

Feb, 2024

使用句子编码器进行零样本多标签主题推理

利用句子编码器进行零样本主题推断任务时，Sentence-BERT 表现出与其他编码器相比的优越性能，而在效率是首要考虑因素时，通用句子编码器是首选；这一结论得到了对七个不同数据集的广泛实验的支持。

Apr, 2023

Prompt-Tuning 在使用多语言语言模型进行跨语言理解方面比 Fine-Tuning 更好

本研究研究了预训练多语言语言模型在零样本跨语言模型传递中的应用，使用 prompt-tuning 进行多语言 NLU 任务（包括句子分类、序列标注和问题解答）中的跨语言评估，并与传统的微调方法进行了比较。结果表明，prompt-tuning 在跨数据集跨语言传递方面比微调表现更好，而且只需调整 0.1% 到 0.3% 的参数。此外，分析表明，prompt tuning 可以在决策边界对齐更好的下游任务上具有更好的跨语言可传递性。

Oct, 2022