我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
揭示了上下文化单词嵌入的一些特征,包括上下文中单词意思的变化程度,单词在不同上下文中的一致性,以及单词位置偏差的影响,并提出一种减轻这种偏差的简单方法。
Aug, 2022
本文对三种最近提出的上下文嵌入方法进行了广泛评估,并在通用依赖关系 2.3 的 89 个语料库中的 54 种语言中,以词性标注,词形还原和依赖关系分析三个任务中使用 BERT,Flair 和 ELMo 作为预先训练的嵌入输入。
Aug, 2019
通过探索名词短语的句法结构,我们创建了一个名为 embeddings_PP 的新的单词嵌入模型。使用该模型使得凌驾于 ISNotes 语料库上的关联性替代了语义相似性,实现了 30% 的桥接代词解决精度,并在桥接前置词选择中获得了超过最先进系统(Hou 等,2013 年)的实质性提升。
Mar, 2018
本文探讨了自然语言处理中的一项工作,基于 BERT 嵌入空间来评估英语单词的多义和同音词意义之间的相关性。发现使用 BERT 嵌入模型能够在意义表示上更加清晰地捕捉多义性和同音词意的潜在结构,具有潜在的应用价值。
Oct, 2020
本文通过经验分析,将提到的未知名称根据新奇性和域外评估进行分离,并证明了最新情境嵌入模型在发现前所未见的名称方面特别有益,尤其是在域外评估中。
Jan, 2020
利用语境嵌入表示的词义表征,基于 WordNet 全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。
Jun, 2019
研究了处理介词短语附着歧义的语料库或统计方法,证明了问题类似于语音识别中的 n-gram 语言模型,使用了最常见的语言建模方法之一,得到了 84.5%的准确性。低计数事件也很重要 - 忽略训练数据中发生不到 5 次的事件会将性能降至 81.6%。
Jun, 1995
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
本文描述了一种新的基于语料库的介词短语附着消歧方法,并与其他基于语料库的方法在这个问题上的性能进行了比较。
Oct, 1994