RetVec: 弹性和高效的文本向量化
本文提出了一种新的正则化技术-回归单词嵌入(ReWE),在联合训练下通过预测翻译中下一个词的概率值和其单词嵌入向量,使系统学习到单词嵌入的分布特性,从而在低资源情况下提高机器翻译的泛化能力,实验证明与强基线相比,该方法可显著提高翻译性能。
Apr, 2019
本文提出一种有效的Ligurian文本标准化方法,利用基于变压器的模型实现了较低的错误率,并在公共数据集上公开发布了Ligurian语言的首个单语语料库。
Jun, 2022
本文提出了一种名为vec2text models的模型, 它可以从有限的,凸的,行为良好的控制空间生成任意自然语言文本,并且可以通过强化学习在向量空间中做出语义决策。作者通过改进Transformer模型并利用自动编码目标函数训练它,实现了一个vec2text模型,其表现出普适性、多样性、流畅性和语义结构这4个特性。并且,作者通过大量实验证明了这个vec2text模型的有效性,并且表现超越了标准的自编码器和降噪自编码器。
Sep, 2022
本文提出了 SimpleStyle 方法,它包含了受控去噪和输出过滤两个简单部分,从而有效地实现了文本风格转换,并通过实验验证了其有效性。同时,作者还引入了一种名为“soft noising”的新技术来进一步改进系统性能,并将其应用于社交网络中真实文本数据的风格转换。作者建议 SimpleStyle 方法可作为属性控制文本重写领域的基准方法。
Dec, 2022
这篇论文介绍了 RETSim,一种轻量级、多语言深度学习模型,用于生成鲁棒的度量嵌入,用于近似重复文本检索、聚类和数据集去重任务。我们证明了 RETSim 在数据集去重、对抗性文本检索基准和垃圾邮件聚类任务上的鲁棒性和准确性明显优于 MinHash 和神经文本嵌入,实现了新的技术水平。我们还介绍了 W4NT3D 基准(Wiki-40B 对抗近似文本数据集),用于评估对抗性环境下多语言近似重复文本检索的能力。RETSim 和 W4NT3D 基准在 MIT 许可下开源。
Nov, 2023
本文研究如何在计算优化的情况下对文本嵌入模型进行对比训练,通过使用一系列预训练的只有解码器的语言模型来产生最佳的模型配置、数据量和微调方法,从而适应不同的计算预算级别。我们通过广泛的实验得到了这些结论,可以帮助从业者为他们的嵌入模型做出明智的设计选择。具体而言,我们的发现表明,完全微调和低秩适应微调分别在较低和较高的计算预算下产生最佳模型。
Jun, 2024