文本向量化器的鲁棒性

Mar, 2023

On the Robustness of Text Vectorizers

Rémi Catellier, Samuel Vaiter, Damien Garreau

TL;DR本文研究了自然语言处理中的一个基本问题 —— 模型对输入变化的鲁棒性。通过对主流的词向量嵌入方案（如拼接、TF-IDF 和段落向量）的形式化证明，发现在 Hamming 距离中呈现出 Hölder 或 Lipschitz 鲁棒性。我们提供了数值界限，并证明文档长度对所涉及的常数有影响。这些发现通过一系列数值实例进行了说明。

Abstract

A fundamental issue in natural language processing is the robustness of the models with respect to changes in the input. One critical step in this process is the embedding of documents, which transforms sequences

natural language processing embedding concatenation tf-idf paragraph vector

发现论文，激发创造

模糊聚类中的词向量和有效性指标

本研究使用模糊聚类方法和进化算法优化实现的模糊聚类方法介绍，通过应用基于计数的单词嵌入在 covid 数据集上，研究表明模糊聚类算法对高维数据非常敏感且参数调整会大大改变其性能，我们通过比较不同算法变体的不同嵌入精度来评估实验结果。

Apr, 2022

基于字符的词嵌入在标注和机器翻译中对抗单词混淆和随机噪声的鲁棒性如何？

本文研究了 NLP 在含有误差的单词形式下的稳健性，考虑了不同类型和组合的误差分布、不同模型和基本单元对 NLP 任务（如形态标注和机器翻译）的影响，以及神经网络在此类应用中的鲁棒性。

Apr, 2017

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

句子和文本的分布式表示

提出了一种名为 “Paragraph Vector” 的无监督算法，用于从文本段落、句子和文档等长度可变的文本片段中学习固定长度的特征表示，该算法能够克服 Bag-of-words 模型的两个主要弱点，经实验证明，Paragraph Vectors 在文本分类和情感分析任务上取得了新的最佳表现。

May, 2014

将文档和查询表示为嵌入词向量集以进行信息检索

提供一种使用词向量嵌入表示整个文档的有效方法，通过将文档和查询表示为单词向量集，使用单词集中每个单词对之间的相似性来计算标准相似性度量，提高 TREC 自适应数据集中的平均精确度。

Jun, 2016

将相关文档纳入 word2vec 中

本文针对词嵌入模型在信息检索任务中存在的问题及其局限性，提出了一种基于 word2vec Skip-Gram 模型的神经网络模型，通过显式向量表示的方式，增加了模型的可解释性和准确性，实现了查询词汇的局部信息融合，提高了指定任务状态下的表现表现。

Jul, 2017

使用段落向量进行文档嵌入

本文针对段落向量的应用进行研究，评估其在文本相似度计算方面的性能，同时探究其向量操作在语义任务上的效果。通过对比潜在狄利克雷分布模型等其他文本建模算法，实验结果表明段落向量方法在性能上优于其他方法，并提出了改进模型提高嵌入质量的简单方法。

Jul, 2015

使用通用和特定词嵌入来分类研究的翻译阶段

本文探讨使用无监督学习的方法，通过单词嵌入在词向量空间内学习语义相似性，以实现对文本分类任务的性能优化。研究发现，使用领域特定的词嵌入可以提高分类性能。

May, 2017

贝叶斯段落向量

本文提出了一种基于神经网络的段落向量的新解释，基于概率论的方法可以通过后验不确定性来在监督学习任务中提升性能，进一步提高了段落向量的研究应用。

Nov, 2017

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019