更多嵌入,更好的序列标注者?
本研究旨在探究深度上下文嵌入(例如 BERT)相对于传统预训练嵌入(例如 GloVe)和一个更简单的基准(随机词嵌入)在训练集大小和语言任务的语言特性等方面,性能是否有大幅提升。我们发现,这两种更简单的基准线上也能匹配行业规模的数据中的上下文嵌入,并且通常在基准任务中具有 5-10% 左右的精度,此外,我们还确定了一些数据特性,这些特性针对于特定的任务使得上下文嵌入具有大幅提升的表现:包含复杂结构的语言、具有歧义的词汇使用、及在训练中从未出现过的单词。
May, 2020
本研究采用 segement embeddings 帮助 Transformer 识别翻译串联中每个句子的位置,并通过比较不同的 segment embeddings 和提出的方法,发现除了在特定情况下,它们并不会对原始串联方法产生益处。
Feb, 2023
本文提出基于神经网络结构搜索的方法 Automated Concatenation of Embeddings(ACE)去寻找拼接不同种类嵌入的最佳组合,以提高预测任务的性能,并在六种任务、21 个数据集上获得了超越强基线的最优性能。
Oct, 2020
本文通过对不同类型的上下文学习 skip-gram 词嵌入对广泛的内在和外在自然语言处理任务性能的首次全面评估,发现内在任务在特定类型的上下文和更高的维度方面更好,而对于大多数外在任务,需要更仔细的调整来找到最佳设置;另外,对于这些外在任务,一旦提高嵌入维度的好处大多用尽,使用不同上下文类型学习的简单词嵌入的串联,可以产生进一步的性能提升;此外,本文还提出了一种新的 skip-gram 模型变体,从替换词的加权上下文中学习单词嵌入。
Jan, 2016
本文对多语种命名实体识别和词性标注任务中预训练的 BERT、BPEmb 和 FastText 非上下文子词嵌入进行系统性评估,发现对于跨语言和任务而言,BERT、BPEmb 和字符表示的组合效果最佳,但在资源匮乏的情况下,非上下文子词嵌入的表现更加优秀。
Jun, 2019
本文通过经验分析,将提到的未知名称根据新奇性和域外评估进行分离,并证明了最新情境嵌入模型在发现前所未见的名称方面特别有益,尤其是在域外评估中。
Jan, 2020
本文对三种最近提出的上下文嵌入方法进行了广泛评估,并在通用依赖关系 2.3 的 89 个语料库中的 54 种语言中,以词性标注,词形还原和依赖关系分析三个任务中使用 BERT,Flair 和 ELMo 作为预先训练的嵌入输入。
Aug, 2019
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
当目标短语位于噪音上下文中时,单个密集向量不足以进行有效的短语检索;因此,我们提出了代表多个子句、连续词语片段的概念,每个片段都有自己的密集向量,并引入了一种修改后的对比损失函数用于鼓励词嵌入具备此属性,并展示了该方法在短语挖掘中的改进效果。
May, 2024