具有歧义的众包框架消歧语料库
本文介绍了一种使用众包方法收集句子中的框架语义歧义注释的方法,以捕捉注释者之间的不一致性,展示了聚合众包注释的结果高于专家语言学家,强调了需要每个句子有多个注释者的必要性,并讨论了众包工人不能达成一致的情况
May, 2018
本文旨在通过提出数据增量方法来解决 FrameNet 在语义方面的短板,该方法通过利用现有的特定于框架的标注来自动标注未标注的同一框架的其他词汇单位。我们的基于规则的方法定义了姐妹词汇单位的概念,并为训练生成了特定于框架的增强数据。在 FrameNet 下的全文和词典注释下,我们展示了框架语义角色标注的实验结果,并证明了数据增加对于提高框架语义分析中的先前结果标识和参数识别至关重要,突显了自动资源创建对于改善模型的价值。
Sep, 2021
本论文提出了 Frames 数据集,旨在研究目标导向型对话系统中记忆的作用并通过自然语言生成展示信息呈现。此外,还介绍了基于 Frames 数据集的任务 Frame Tracking,将状态跟踪扩展到同时跟踪多个状态,并提出了基线模型。
Mar, 2017
使用 FrameNet 形式主义,本研究探讨了通过生成新句子来保留给定语义结构的任务。我们提出了一个框架,通过过度生成和过滤的方法生成新的框架语义注释句子。我们的结果表明,基于丰富且明确的语义信息进行条件生成往往会产生高人工接受度的生成结果,并对提示和微调均有效。我们生成的框架语义结构注释在低资源环境中对框架语义角色标注的训练数据扩充非常有效;然而,在高资源环境下我们并没有看到好处。本研究得出的结论是,尽管生成高质量、语义丰富的数据可能在一定程度上成为可能,但这种生成结果的下游效用仍有待进一步观察,突出了自动化语言注释任务的尚未解决的挑战。
Jun, 2024
通过引入 Stanford 自然语言推理语料库,我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏,该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对,包含 570k 个句子对,是同类资源的两个量级以上,在规模方面取得了重大进展,这使得词汇分类器优于一些复杂的现有蕴含模型,并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。
Aug, 2015
本文主张采用注释实践来认识和代表多模式交流的内在透视性,并通过一系列注释实验介绍了在 Multi30k 和 Flickr 30k Entities 数据集上应用 FrameNet 注释的结果,其发现认为:(一)不同语言中产生的相同图片的标题之间的框架语义相似性对于标题是否为另一标题的翻译敏感,以及(二)图片注释对于语义框架是否在存在标题时进行的 ANNOTATION 是敏感的。
May, 2022
理解事件描述是语言处理的核心方面,但目前的方法主要集中在单个句子或文档上。跨文档汇总事件信息能提供更丰富的理解。为此,我们介绍了 FAMuS,这是一个新的维基百科段落语料库,用于报告某个事件,并提供与之对应的不同体裁(非维基百科)的源文章。我们对报告和源文章中的事件和跨句子的论证进行了 FrameNet 注释,提供了不同事件类型的广泛覆盖。我们展示了 FAMuS 支持的两个关键事件理解任务的结果:源验证 —— 确定一篇文档是否是目标报告事件的有效来源,以及跨文档的论证提取 —— 从报告和正确的源文章中提取目标事件的全文档论证。我们通过发布 FAMuS 和我们的模型来支持进一步研究。
Nov, 2023
本文研究了不同上下文环境下,有些动词引起的语义框架不同,以及如何利用 Contextualized word representations 识别这些不同的语义框架,同时探索哪些类型的表示适合用于语义框架的归纳。通过比较七种不同的 Contextualized word representations,特别是 BERT 和其变体,在 FrameNet 和 PropBank 等英语 Frame-semantic 资源方面进行了实验,表明,某些 Contextualized word representations 对于语义框架的归纳具有相当的信息量。此外,本文还考察了动词的上下文表示估算其所引起的语义框架数的程度。
May, 2021
本文介绍语义框架预测技术,通过将长篇小说拆解为一系列固定长度的 “故事块”,使用语义框架频次标准化的方法,自动预测出后续故事情节。实验证明,当块长度超过 150 句时,此技术的自动化预测效果显著优于其他现有的方法。
Apr, 2021