RetVec: 弹性和高效的文本向量化

Feb, 2023

RetVec: Resilient and Efficient Text Vectorizer

Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, Alexey Kurakin

TL;DR本文介绍了 RetVec，一种用于神经文本处理的弹性多语言嵌入方案，包括小文本分类和大型语言模型，将单词嵌入到256维向量空间中，与最先进的标记器和词嵌入进行比较，这些比较证明了RetVec能够构建具有鲁棒性的文本模型，并且更加抗干扰。

Abstract

This paper describes retvec, a resilient multilingual embedding scheme designed for neural-based text processing, including small-text cla

发现论文，激发创造

ReWE: 用于神经机器翻译系统正则化的词嵌入回归

本文提出了一种新的正则化技术-回归单词嵌入（ReWE），在联合训练下通过预测翻译中下一个词的概率值和其单词嵌入向量，使系统学习到单词嵌入的分布特性，从而在低资源情况下提高机器翻译的泛化能力，实验证明与强基线相比，该方法可显著提高翻译性能。

Apr, 2019

利用预训练语言模型生成通用文本嵌入以实现可扩展推断

研究使用共享文本编码器实现多任务推理以及使用二进制量化减少数据存储大小的方法，证明预训练的编码器在多个任务上表现的泛化性好。

Apr, 2020

SimCSE: 简单的对比学习句子嵌入

本文介绍了一种简单的对比学习框架SimCSE，通过无监督和监督学习两种方法，显著提高了句子嵌入的性能，适用于语义文本相似性任务。

Apr, 2021

濒危语言的文本规范化：以利古里亚语为例

本文提出一种有效的Ligurian文本标准化方法，利用基于变压器的模型实现了较低的错误率，并在公共数据集上公开发布了Ligurian语言的首个单语语料库。

Jun, 2022

带有往返翻译的向量转文本

本文提出了一种名为vec2text models的模型，它可以从有限的，凸的，行为良好的控制空间生成任意自然语言文本，并且可以通过强化学习在向量空间中做出语义决策。作者通过改进Transformer模型并利用自动编码目标函数训练它，实现了一个vec2text模型，其表现出普适性、多样性、流畅性和语义结构这4个特性。并且，作者通过大量实验证明了这个vec2text模型的有效性，并且表现超越了标准的自编码器和降噪自编码器。

Sep, 2022

SimpleStyle：一种可适应的风格转移方法

本文提出了 SimpleStyle 方法，它包含了受控去噪和输出过滤两个简单部分，从而有效地实现了文本风格转换，并通过实验验证了其有效性。同时，作者还引入了一种名为“soft noising”的新技术来进一步改进系统性能，并将其应用于社交网络中真实文本数据的风格转换。作者建议 SimpleStyle 方法可作为属性控制文本重写领域的基准方法。

Dec, 2022

不需重新训练，只需改写：通过改写文本来抵御对抗样本

ATINTER是一种模型, 可以截获和学习重写对下游文本分类器产生对抗性影响的输入, 有效提供更好的对抗性鲁棒性。

May, 2023

RETSim：文本相似度的韧性与高效性

这篇论文介绍了 RETSim，一种轻量级、多语言深度学习模型，用于生成鲁棒的度量嵌入，用于近似重复文本检索、聚类和数据集去重任务。我们证明了 RETSim 在数据集去重、对抗性文本检索基准和垃圾邮件聚类任务上的鲁棒性和准确性明显优于 MinHash 和神经文本嵌入，实现了新的技术水平。我们还介绍了 W4NT3D 基准（Wiki-40B 对抗近似文本数据集），用于评估对抗性环境下多语言近似重复文本检索的能力。RETSim 和 W4NT3D 基准在 MIT 许可下开源。

Nov, 2023

使用任务向量实现鲁棒的概念消除

使用多样逆转的方法，在文本图像模型中实施概念擦除，提供更鲁棒的编辑性能，并且在增强擦除功能的同时更好地保持模型的核心功能。

Apr, 2024

将语言模型改造为嵌入模型：找寻计算最优配方

本文研究如何在计算优化的情况下对文本嵌入模型进行对比训练，通过使用一系列预训练的只有解码器的语言模型来产生最佳的模型配置、数据量和微调方法，从而适应不同的计算预算级别。我们通过广泛的实验得到了这些结论，可以帮助从业者为他们的嵌入模型做出明智的设计选择。具体而言，我们的发现表明，完全微调和低秩适应微调分别在较低和较高的计算预算下产生最佳模型。

Jun, 2024