Adposition and Case Supersenses v2.6: 英语指南
使用多语种 SNACS 注释方案,我们在印地语中提供了一个已完成且公开可用的附有语义关系注释的介词和格标记语料库,并利用语言模型自动标记 SNACS 超义,并取得了在英语上的类似成果,这可用于上游应用于语义角色标记和 Gujarti 等相关语言的扩展。
May, 2022
为了解决语义关系的歧义和语料中多义词的问题,我们引入了一种新的英语介词和所有格标记消歧的注释方案,并采用了广泛适用的 “超感分类” 而非细粒度字典定义方式来对介词和所有格进行注释,并结合谓词或场景上下文中标记的词汇贡献和角色,用相同的类别描述了介词和所有格。强的互评一致性和鼓励的解消歧方法的结果说明了该方案和任务的可行性。
May, 2018
该论文重新考虑了一个广泛覆盖的注释方案,认为介词的词汇贡献不等同于介词所介导的角色 / 关系,并提出了一个用于表示场景角色和介词词汇功能的框架,从而实现了构建分析。
Mar, 2017
本研究采用半监督方法来增强介词意义的自动消歧功能。通过在未标注的多语数据上进行预训练,利用一个 LSTM 编码器来预测介词的翻译,然后在一个监督分类系统中将其作为组成部分进行微调,结果表明这种多语信号能够显著提高两个介词意义数据集的结果表现。
Nov, 2016
本文使用大型语言模型研究语法结构中的语义构成,通过将上下文词向量投影到三个不同的解释型语义空间中,自动得出语法结构中词汇项的语义性质,并发现主语中的单词被解释为比同一单词在宾语位置更具有代理性, AANN 结构中的名词被解释为更具测量性。此方法探究了语法结构的分布式意义,抽象出了特定词汇。
May, 2023
通过对稀少的空间关系的分类来构建 SpatialSense 数据集,该数据集可以提供计算机视觉领域的基准测试,引入敌对性众包来降低数据集偏见并且 samples 更有趣的关系,结果表明现有的先进模型表现出与简单基线相当的性能。
Aug, 2019
本文提出了一种无监督的方法来区分名词的意义变化,并通过数字化书籍中的严格时间变化文本数据构建分布式词库网络,将它们分别聚类以获得与不同时间点对应的以词为中心的意义聚类,这种方法可应用于词汇编纂和语义搜索,并经过人工评估和 WordNet 对比,该算法在 48 个样本和 21 个样本分别中正确识别出 60.4%的新出现情况,57%的分裂 / 合并情况,并有 44%的新意义得到 WordNet 验证。
May, 2014
本文介绍了为印度语言量身定制的动词中心词汇资源 OntoSenseNet 的丰富,其重要贡献之一是通过开发一个计算版本来保留 Telugu 词典的原汁原味。手动注释的黄金标准语料库共包含 8483 个动词、253 个副词和 1673 个形容词,并由本地语言人士根据定义的注释指南进行注释。本文提供了注释过程的概述,并通过互注器协议的验证,验证了所开发资源的有效性。
Jul, 2018
我们在 AXOLOTL-24 共享任务中提交了我们的研究成果,共享任务包括两个子任务:识别单词随时间获得的新义项(在比较较新和较旧的时间段时)和为识别出的新义项提供定义。我们通过实现一个概念简单且计算成本低的解决方案来完成这两个子任务。我们训练了基于适配器的二分类模型,用于将词汇解释与用法示例匹配,并利用模型的概率输出来识别新义项。这些模型还用于将新义项的用法示例与 Wiktionary 的定义进行匹配。我们的提交在第一个子任务上获得第三名,在第二个子任务上获得第一名。
Jul, 2024
通过建立基于自然语义的系统化推导测试平台,本文发现:Transformer 和 GRU 模型能够解析包含量词和否定等逻辑表达的句子,且对形式相似但复杂程度不同的句子表现良好,这表明深度神经网络模型能够捕捉组合意义。
Jun, 2021