关于语言编码器间的仿射同伦

Jun, 2024

On Affine Homotopy between Language Encoders

Robin SM Chan, Reda Boumasmoud, Anej Svete, Yuxin Ren, Qipeng Guo...

TL;DR预训练语言编码器的相似性及其对下游任务性能的影响进行了分析，发现了仿射对齐的特性以及其对外在相似度的启示，从而揭示了预训练编码器空间的结构。

Abstract

pre-trained language encoders -- functions that represent text as vectors -- are an integral component of many NLP tasks. We tackle a natural question in language encoder analysis: What does it mean for two encoders to be similar? We contend that a faithful measure of →

pre-trained language encoders similarity affine alignment extrinsic similarity structure of space

发现论文，激发创造

使用句子编码器和短语对齐朝向结构感知的释义识别

本文提出一种将句子编码器与对齐组件相结合的方法，针对改善意思相似度比较任务的性能和可解释性，并通过具体实验证明了该方法能够提升模型对结构差异和高词汇重复的语句的区分能力。

Oct, 2022

揭示词嵌入中的差异性语言信息及其对内在和外在评估的意义

本文研究词嵌入技术中的理想表示问题，发现各种模型包含的信息互相矛盾，通过线性变换来调整相似度排序以提高其结果，同时探讨了内在和外在评估之间的关系。

Sep, 2018

一种使用预先训练的自编码器进行跨语言语言转换的简单几何方法

本文研究了在多语言训练中的强大的语句编码器，探讨了是否可以通过几何映射来间接地操纵语言属性，并用预训练的多语言自编码器验证了该方法的有效性。

Apr, 2021

视觉和语言编码器是否相似地代表世界？

通过使用 Centered Kernel Alignment (CKA) 分析图像字幕基准上视觉和语言模型的潜在空间结构，我们发现不对齐和对齐的编码器的表示空间在语义上是相似的。在无统计相似性的情况下，我们展示了存在可能匹配不对齐编码器而无需任何训练。我们将其视为一种基于种子图匹配问题，利用图之间的语义相似性提出了两种方法 - 一种是快速二次分配问题优化，一种是基于新颖局部 CKA 度量的匹配 / 检索。我们在包括跨语言、跨域字幕匹配和图像分类在内的几个下游任务上展示了其有效性。

Jan, 2024

句子嵌入的线性跨语言映射

本文讨论了跨语言句子嵌入向量表示句子语义的方法，并提出了通过简单的线性跨语言映射以及正交性偏差条件的度量来改善多语言嵌入向量。

May, 2023

语言模型适应的视觉比较

本研究介绍了适配器作为一种轻量级的模型适应方法，为了协助上述过程中产生的新挑战，提供了支持适配器评估的可视化工作区，研究显示，对于训练语言消歧任务的适配器而言，语境 - 0（去语境化）嵌入引入了一种新的偏差类型，这些是上下文 - 0 嵌入的产物。

Aug, 2022

语义对齐下的潜在空间翻译

通过简单的转换，我们的研究展示了神经网络模型中学习到的表示可以在不同的预训练网络之间进行转化，从而有效地连接编码器和解码器，并实现在多模态设置下的出色分类性能。

Nov, 2023

形态学词向量

通过使用德语数据作为案例研究，我们使用语素标注数据引导连续单词嵌入，使嵌入空间中的接近词彼此共享语素特征，并展示了我们学习得到的嵌入实现了这一目标。

Jul, 2019

探索多语言语言模型中的异性与异常值对于跨语义句子相似度的影响

通过对多个预训练的多语种语言模型进行研究，探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的 sentence transformers 在这些任务中表现更好，且表示更各向同性。研究人员通过不同的操作（例如消除异常维度、聚类基于同性等操作）来改进多语种表示。

Jun, 2023

内在偏见度量与应用偏见无关

本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系，发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准，并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上，作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。

Dec, 2020