演讲者通过上下文填补词汇语义空缺

EMNLPOct, 2020

演讲者通过上下文填补词汇语义空缺

Speakers Fill Lexical Semantic Gaps with Context

Tiago Pimentel, Rowan Hall Maudslay, Damián Blasi, Ryan Cotterell

TL;DR通过研究 18 种不同语言中的单词，文章证明了词汇歧义的大小与上下文提供关于其信息量的相关性，从而推断有歧义的单词可以在上下文中被澄清，使其更好理解。

Abstract

lexical ambiguity is widespread in language, allowing for the reuse of economical word forms and therefore making language more efficient. If ambiguous words cannot be disambiguated from context, however, this gain in efficiency might make language less clear -- resulting in frequent m

lexical ambiguity word disambiguation contextual uncertainty entropy language efficiency

发现论文，激发创造

语境化语言模型中的词汇歧义模式

本文研究了语境化语言模型的多义词辨别能力。作者提出了一个人工注释的数据集，用于评估多义词词义的相似性，发现多义词的词义相似性介于相同和同音异义之间，并呈现出一定的词义变化规律性。BERT Large 在相似性等级方面表现最佳，但无法一致地复制观察到的相似性模式，并且在某些类型的多义词变化上存在问题。

Sep, 2021

意思的不同层次：通过上下文化语言模型揭示模糊词表示的几何形态

我们的研究使用最新的上下文语言模型对词汇歧义的心理学理解进行了一系列模拟，发现它们捕捉了单义词、同音异义词和多义词之间的微妙有意义的区别，为现代心理学理解词汇歧义提供了量化支持，并提出了理解上下文信息如何跨不同时间尺度塑造词汇意义的新挑战。

Apr, 2023

双向 Transformer：（西班牙语）上下文中的多义词的表示：新的词汇资源和实证分析

通过比较多种 BERT-based 语言模型中的语境化词嵌入，我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集，并收集了人类的相关性判断。结果显示，这些语言模型的语义表达在人类判断中捕捉到一些差异，但不能达到人类水平。与英语不同，我们发现在西班牙语中，模型规模与性能之间没有相关性。此外，我们还发现了目标名词消歧的陈规轨迹，并在英语中部分复制了这一结果。我们贡献了（1）一组包含人类相关性判断的西班牙语句子刺激数据集，以及（2）认识到语言模型规格（结构，训练方案）对语境化嵌入的影响。

Jun, 2024

恐怕语言模型未对歧义建模

本论文提出了一个基于语言学家注释的语言歧义数据集，并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明，这是一个极具挑战性的任务，现有的模型正确率仅为 32％，本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时，本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。

Apr, 2023

RAW-C：上下文中模糊词的相关性（英语新词汇资源）

该论文介绍了 RAW-C，一种对 112 个上下文中的模棱两可的单词进行分级人类相关性判断的数据集，以及来自 BERT 和 ELMo 的情境化词嵌入的余弦距离的度量与人类判断的相关性。同时，这份论文提出了心理语言学的理论与词汇语义计算模型之间的综合。

May, 2021

将单词置于上下文中：LSTM 语言模型和词汇歧义

本研究使用神经网络模型处理语言，探讨了 LSTM 语言模型如何处理英语中的词汇歧义，通过探究其隐藏的表示方式发现大量的词汇信息与上下文信息被表述，但上下文信息有待提高。

Jun, 2019

词汇歧义检测与词义消歧综述

该研究论文探讨自然语言处理领域中关于理解和解决语言中的歧义的技术，强调了多义性和同音异义性等语言现象的复杂性，以及它们对计算模型的影响。论文详细介绍了从深度学习技术到利用词汇资源和知识图谱（如 WordNet）的各种方法，重点研究了词义消歧（Word Sense Disambiguation）。它引入了词义扩展（word sense extension）和神经肌阵挛方法等最新方法，通过预测新的词义来提高消歧准确性。论文还讨论了生物医学消歧和语言特定优化等具体应用，并讨论了认知隐喻在话语分析中的重要性。研究还确定了该领域存在的持续挑战，例如词义注释语料库的稀缺性和非正式临床文本的复杂性。最后，论文提出了未来的研究方向，包括使用大型语言模型、视觉词义消歧和多语言词义消歧系统，强调了在处理自然语言处理中的词汇复杂性方面的持续演进。该研究论文突显了这一领域在使计算机更准确地理解语言方面的进展。

Mar, 2024

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

上下文诱导的词嵌入编码人类词义知识的方面

本文探讨了自然语言处理中的一项工作，基于 BERT 嵌入空间来评估英语单词的多义和同音词意义之间的相关性。发现使用 BERT 嵌入模型能够在意义表示上更加清晰地捕捉多义性和同音词意的潜在结构，具有潜在的应用价值。

Oct, 2020

自然语言处理中的模糊类型分类

近期的研究指出，NLP 系统在理解人类语言时可能会遇到困难，因为它们可能无法像人类自然地处理语言的歧义。本文提出了基于英语的歧义类型分类法，旨在帮助 NLP 分析，并通过对数据集和模型性能进行更精细的评估。

Mar, 2024