上下文中的迷失?关于上下文化词向量的意义差异
本文探讨了自然语言处理中的一项工作,基于 BERT 嵌入空间来评估英语单词的多义和同音词意义之间的相关性。发现使用 BERT 嵌入模型能够在意义表示上更加清晰地捕捉多义性和同音词意的潜在结构,具有潜在的应用价值。
Oct, 2020
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本文研究了词向量的解释问题,提出了一种算法可通过上下文信息和目标词语推断其意义,进而利用循环神经网络生成该词汇的定义,实现对词向量的直接解释。同时,作者提出了一个高质量的词汇上下文 - 定义数据集,用于词义消歧与定义建模。经实验测试,该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。
Sep, 2018
本研究提出一种新颖的在线算法,通过最小化上下文嵌入组内的距离来学习单词嵌入中每个维度的本质,以三种最先进的基于神经网络的语言模型 Flair、ELMo 和 BERT 生成上下文嵌入,为同一词汇类型生成不同的嵌入,这些嵌入由 SemCor 数据集手动标注的意义进行分组,结论表明本文提出的算法不会损伤性能,甚至能提高 3%,可以用于未来关于上下文嵌入可解释性的研究。
Nov, 2019
本文探讨了不同的策略,将预训练的上下文化单词表示与非上下文化单词嵌入使用最佳策略相结合,其在多个基准 WSD 数据集上实现了显著比之前发表的最佳准确率更高的结果,并提供了源代码。
Oct, 2019
本文提出一种评估感觉嵌入社会偏见的基准数据集和新的感知特定偏见评估指标,并对多个静态和上下文感知嵌入进行广泛评估,发现即使在单词级别没有发现偏见的情况下,仍存在令人担忧的感知级别的社会偏见,这通常被单词级别偏见评估措施所忽略。
Mar, 2022
本文提出两种改进的解决方案,通过将上下文多义词嵌入视为噪声(去除)和通过生成聚类级别的平均锚嵌入以替换上下文多义词嵌入,提高了跨语言语境下上下文词嵌入对齐的微观性能,同时不会损害双语词汇表归纳任务的宏观性能;对于无监督对齐,我们的方法在双语词汇表归纳任务中显著提高了 10 多分。
Sep, 2019
通过研究 BERT 中的单词上下文含义的量化,我们展示了预训练语言模型如何解释单词在上下文中的重要性,结果显示顶层语义表示对于任务的推断非常准确,底层语义表示更具可转移性。
Apr, 2020
利用语境嵌入表示的词义表征,基于 WordNet 全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。
Jun, 2019
本文研究了语境化语言模型的多义词辨别能力。作者提出了一个人工注释的数据集,用于评估多义词词义的相似性,发现多义词的词义相似性介于相同和同音异义之间,并呈现出一定的词义变化规律性。BERT Large 在相似性等级方面表现最佳,但无法一致地复制观察到的相似性模式,并且在某些类型的多义词变化上存在问题。
Sep, 2021