利用语料库相似性衡量在低资源环境下嵌入可靠性的预测

Jun, 2022

利用语料库相似性衡量在低资源环境下嵌入可靠性的预测

Predicting Embedding Reliability in Low-Resource Settings Using Corpus Similarity Measures

Jonathan Dunn, Haipeng Li, Damian Sastre

TL;DR本研究通过模拟 17 种语言的低资源情境，评估嵌入式相似性、稳定性和可靠性在不同条件下的表现，并利用语料相似度来预测训练后的嵌入式属性，结果表明可以利用小数据集下的语料相似度估计低资源情境中嵌入式的可靠性。这些结果对于那些数据受限制无法进行系统下游验证的低资源语言的评估具有重要意义。

Abstract

This paper simulates a low-resource setting across 17 languages in order to evaluate embedding similarity, stability, and reliability under different conditions. The goal is to use →

low-resource setting embedding similarity corpus similarity measures reliability of embeddings limited training data

发现论文，激发创造

跨语言语料库相似度度量方法具有较强的鲁棒性

本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法，旨在量化各语言语料库之间的距离和单个语料库的同质性，结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性，并且可以应用于低资源语言和不同的语料库集。

Jun, 2022

一种轻量级的跨语言语义文本相似度方法

该研究提出了一种基于词向量的跨语义相似度计算方法，只需要一个有限的单词翻译库，能够适用于几乎所有语言对，达到与监督和资源密集型方法相近的表现，在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。

Jan, 2018

利用词对齐改进低资源语言的跨语言句子嵌入

跨语言句子嵌入领域最近取得了很大的进展，但是由于平行语料的稀缺性，对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题，我们引入了一种新的框架，通过使用现成的词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标：对齐的单词预测、单词翻译排序，以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法，该方法在低资源语言的句子嵌入上取得了显著的改进。此外，所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。

Apr, 2024

CorrEmbed: 评估预训练模型图像相似性效果的新指标

利用预训练的计算机视觉模型提取高级图像特征的图像嵌入相似性在识别具有相似组成的图像方面表现出显著的效果。本文提出了一种名为 CorrEmbed 的新方法，通过计算图像嵌入和人工生成的标签向量之间的距离相关性来评估来自多个预训练的计算机视觉模型的图像嵌入的可行性。我们使用这个指标广泛评估了多种预训练的 Torchvision 模型，揭示了 ImageNet1k 准确率分数和标签相关性分数之间的线性关系。值得注意的是，我们的方法还可以识别出与这一模式偏离的情况，从而揭示了不同模型如何捕捉高级图像特征。CorrEmbed 为研究人员和实践者在时尚零售中开发有效的基于数据驱动的相似物品推荐方法提供了一个强大的性能评估工具。

Aug, 2023

使用相似度度量选择 NER 的预训练数据

本文提出了三种低成本的方法来衡量源预训练和目标任务数据之间的相似性，并在超过 30 个数据对上展示这些方法是好的预测器。结果表明，预训练的语言模型比预训练的词向量更有效，更可预测，但是预训练的词向量在预训练数据不相似时表现更好。

Apr, 2019

以词和句相似性重新思考评估

本文提出了 EvalRank 作为一种新的内部评估方法，它在 60 多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Mar, 2022

数据相似性无法充分解释语言模型的性能

大型语言模型的性能在许多下游任务上都很高，但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较，测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现，在其他基准测试中，相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。

Nov, 2023

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021