Mar, 2023

文本向量化器的鲁棒性

TL;DR本文研究了自然语言处理中的一个基本问题 —— 模型对输入变化的鲁棒性。通过对主流的词向量嵌入方案(如拼接、TF-IDF 和段落向量)的形式化证明,发现在 Hamming 距离中呈现出 Hölder 或 Lipschitz 鲁棒性。我们提供了数值界限,并证明文档长度对所涉及的常数有影响。这些发现通过一系列数值实例进行了说明。