May, 2020

上下文嵌入:何时值得使用?

TL;DR本研究旨在探究深度上下文嵌入(例如BERT)相对于传统预训练嵌入(例如GloVe)和一个更简单的基准(随机词嵌入)在训练集大小和语言任务的语言特性等方面,性能是否有大幅提升。我们发现,这两种更简单的基准线上也能匹配行业规模的数据中的上下文嵌入,并且通常在基准任务中具有 5-10% 左右的精度,此外,我们还确定了一些数据特性,这些特性针对于特定的任务使得上下文嵌入具有大幅提升的表现:包含复杂结构的语言、具有歧义的词汇使用、及在训练中从未出现过的单词。