- 通过语境化语言模型诱导概念:从词义到更多
通过本文,我们引入了概念归纳这个非监督任务,从数据中学习一组定义概念的词语软聚类,该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳,充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上 - EMNLP双向 Transformer:(西班牙语)上下文中的多义词的表示:新的词汇资源和实证分析
通过比较多种 BERT-based 语言模型中的语境化词嵌入,我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集,并收集了人类的相关性判断。结果显示,这些语言模型的语义表达在人类判断中捕捉到一些差异,但不能达到人类水平。与 - 基于显著文档上下文的神经机器翻译中改进词义消岐
通过在神经机器翻译中引入少量非句内语境,我们提出了一种简单且可扩展的方法来解决翻译歧义问题,无需语义标注和对标准模型体系结构进行修改,并且通过减少训练成本,优于句级基线和可比的文档级基线。
- EMNLP以词义进行编码切换的神经网络机器翻译预训练
我们介绍了一种使用知识库中词义特定信息进行预训练的多语言神经机器翻译模型的端到端方法,通过实验证明了我们方法在整体翻译质量上有显著改进,并且在 DiBiMT 消歧测试中显示出了精确性改进的鲁棒性。
- 意思的不同层次:通过上下文化语言模型揭示模糊词表示的几何形态
我们的研究使用最新的上下文语言模型对词汇歧义的心理学理解进行了一系列模拟,发现它们捕捉了单义词、同音异义词和多义词之间的微妙有意义的区别,为现代心理学理解词汇歧义提供了量化支持,并提出了理解上下文信息如何跨不同时间尺度塑造词汇意义的新挑战。
- ACLRAW-C:上下文中模糊词的相关性(英语新词汇资源)
该论文介绍了 RAW-C,一种对 112 个上下文中的模棱两可的单词进行分级人类相关性判断的数据集,以及来自 BERT 和 ELMo 的情境化词嵌入的余弦距离的度量与人类判断的相关性。同时,这份论文提出了心理语言学的理论与词汇语义计算模型之 - EMNLP演讲者通过上下文填补词汇语义空缺
通过研究 18 种不同语言中的单词,文章证明了词汇歧义的大小与上下文提供关于其信息量的相关性,从而推断有歧义的单词可以在上下文中被澄清,使其更好理解。
- 词义消歧语言模型的分析与评价
本文对 BERT 模型在词汇歧义方面的能力及其潜在局限性进行了深入的定量和定性分析。作者发现,BERT 可以准确地捕捉高级别的意义区别,但对于具有限定条件的名词消歧问题,处理仍存在很多挑战。作者还在两种主要的基于语言模型的 WSD 策略(即 - 通过选择性字音符复原进行多义字消歧
本文提出了一种自动标记一部分词汇以进行音标恢复的方法,从而实现有选择性的同形词消除,并将其在神经机器翻译、词性标注和语义文本相似度等下游应用中进行了评估。
- ACL将单词置于上下文中:LSTM 语言模型和词汇歧义
本研究使用神经网络模型处理语言,探讨了 LSTM 语言模型如何处理英语中的词汇歧义,通过探究其隐藏的表示方式发现大量的词汇信息与上下文信息被表述,但上下文信息有待提高。
- ACL词形变化词典中的未监督歧义消解
本文提出了使用基于神经网络的无监督学习方法来处理语料库中的词汇歧义问题,该方法在不考虑上下文的情况下,使用概率模型来推断单词形态上下文的各种分析,最终通过评估指标在五种语言上取得了一定效果。
- 语义 Web 技术在机器翻译中的应用:调研
研究发现使用语义网络技术能够提高机器翻译的质量,但二者的结合仍处于起步阶段。
- ACL将词义逐步无缝集成到下游自然语言处理应用中
通过将新颖的消歧算法与最先进的分类模型相结合,我们创建了一个流程来将语义级别的信息整合进下游自然语言处理应用程序中,尤其是当底层语义清单的细粒度降低且文档足够大时,在多个主题分类和极性检测数据集上,我们发现对输入文本进行简单的消歧可以带来一 - 采用紧凑闭范畴和 Frobenius 代数的部分分布语义
本论文提出了三种新的方法,一方面提出了基于 Frobenius 代数的抽象框架的具体实例,另外则提出了一种新的组合算法处理不同级别的词汇歧义,并引入了用于解释词汇歧义的量子力学方法。
- 自然语言处理中的开放系统范畴量子语义学
本文介绍了一种新的基于范畴论和量子力学的自然语言处理方法,通过将词汇进行向量化,并结合 Coecke, Sadrzadeh 和 Clark 提出的分配模型进行词汇的分析和理解,同时采用 Selinger 的 CPM 构造进行词汇多义性的处理 - COLING使用概念密度进行词义消歧
本文提出一种方法解决名词的词汇歧义问题,并对其在布朗语料库上的自动评估进行了说明,方法基于 WordNet 的广泛覆盖的名词分类法和概念密度公式,无需手动编码或训练,结果已自动评估了布朗语料库的语义标记版本 SemCor。