- EMNLPAM2iCo:使用对抗性示例在低资源语言中评估单词含义的上下文
本研究提出了 AM2iCo 用于多语言和跨语言的词汇语义评估,旨在研究最先进的预训练文本表示模型在理解跨语言环境下的词意识别方面的能力,结果显示当前预训练编码器表现与人类性能存在明显差距,尤其体现在低资源语言和与英语不同的语言上。
- EMNLP预训练多语言表示的语言中立性
本文研究了多语种上下文嵌入的语言中性和词汇语义,提出了两种实现更强语言中性的方法,并展示了在不使用平行数据的情况下如何达到语言识别的最新准确率以及匹配平行句子的词对齐统计方法的性能。
- 神经机器翻译模型的语言表征能力
本研究分析了神经机器翻译模型在不同粒度上学习到的表示,并通过相关的外围特性对其质量进行评估,结果表明深层次的 NMT 模型学习了大量的语言信息,其中鲜明的发现包括:(i)词组结构和词类等语言单元在模型较低的层次上被捕捉;(ii)而词汇语义或 - EMNLP量化性别系统的语义核心
本论文对生物语言的词性存在性别差异的现象进行了大规模探究,发现有 18 种语言的生物语言词性与词汇语义存在显著相关性,即生物语言的性别标记并非毫无规律可循。
- COS960:960 个中文词语相似度数据集
本文提出了一个基于中文词汇的数据集 COS960,用于测试两个及以上由两个以上语素构成的词汇的相似度。我们详细描述了数据集的构建过程和标注过程,并对一系列词嵌入模型进行了测试。
- 语义投影:从词嵌入中恢复多个不同物体特征的人类知识
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
- 词向量评估方法概述
本论文总结了词嵌入表示领域的广泛研究,概括了 16 种内在方法和 12 种外在方法,提出了一种方法分类并讨论了一些关键挑战。
- 通往普适语义标注的道路
本研究提出了通用语义标注的任务,为广泛覆盖的多语言文本提供了更好的语义分析,使用具有语言中立性和信息丰富的标签对词汇进行标注,为跨语言语义分析提供了支持。语义标注在平行意义银行中的应用支持这些论点,并促进形式词汇语义学和跨语言投影,这个研究 - 全球思考,本地嵌入 --- 单词的本地线性元嵌入
提出一种无监督的本地线性元嵌入学习方法,使用预先训练好的分布式词嵌入生成更准确的元嵌入,表现优于该领域现有技术,建立新的元嵌入技术的最先进状态。
- COLING通过词汇分解和组合学习句子相似度
本文提出了一个基于词汇语义分解和组合、双通道 CNN 模型的方法,不仅考虑输入两个句子的相似部分,同时也利用它们的不相似部分,从而可以更准确地比较句子相似度。实验表明,该模型在答案句子选择任务上取得了最好的表现,并在释义识别任务上取得可比较 - ACL稀疏过完备词向量表示
提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
- 在词汇多项选择问题中合并独立模块
本文研究了三种融合规则以组合概率分布,应用于自然语言处理的两个问题。结果显示三种融合规则都比它们各自的组件模块更精确,但是流行的混合规则对于这两个问题都不是最佳规则。
- 翻译等效性手动标注:Blinker 项目
用双语标注员标注了 16,000 个现代法语和现代英语圣经版本之间大致相应的单词,以便用于开发和测试翻译词典和统计翻译模型的标准数据集,并可以用于跨语言词汇表征模式的研究和单语词义消歧方法的研究。