通用语料库的主题敏感注意力机制纠正预训练嵌入中的词义偏差

Jun, 2019

通用语料库的主题敏感注意力机制纠正预训练嵌入中的词义偏差

Topic Sensitive Attention on Generic Corpora Corrects Sense Bias in Pretrained Embeddings

Vihari Piratla, Sunita Sarawagi, Soumen Chakrabarti

TL;DR本文旨在通过训练嵌入来准确捕获少量数据集上限制主题的单词的意义，并可能在各种涉及该数据集的任务中使用它们。为了适应预先训练的嵌入，提出了一些策略，其中包括基于单词语料库频率的正则化。不过，本文提出的一种新的稳定度正则化策略表现更加优秀，这种策略在少量数据语境中很实用。通过在十个主题上的三个任务中的比较，我们发现，即使是最佳的嵌入适配策略也只能提供比微调基线略微增益的结果。最后，本文提出的非常见的预处理嵌入方式是通过从大型主题丰富的源语料库(如维基百科)中探索、关注和借用片段来实现的，这一步骤是通过合适的索引方法实现的。通过实验，本文得出了一个惊人的结论，即即使是很少的语料库增强也比调整嵌入更有用，这表明习惯性的语境信息可能已经从预训练的嵌入中消失，不能通过适配来挽救。

Abstract

Given a small corpus $\mathcal D_T$ pertaining to a limited set of focused topics, our goal is to train embeddings that accurately capture the sense of words in the topic in spite of the limited size of $\mathcal D_T$. These embeddings may be used in various tasks involving $\mathcal D_T$. A popular strategy in →