NLTK FrameNet API:设计富含语言资源以提高发现性
该研究介绍了 Frame Semantic Transformer,这是一个开源的 Python 库,它在提高易用性的同时几乎达到了 FrameNet 1.7 的最新水平,使用了一个基于 Propbank 和 FrameNet 样例的 T5 模型精调,通过使用 FrameNet 词汇单元在推断时提供提示,使用文本数据增强技术增强了模型对现实世界数据的鲁棒性。
Mar, 2023
使用众包方法对维基百科语料库中的 5,000 个词语 - 句子对进行了 FrameNet 语义框架消歧的资源建设,提供了一个基于不同独立注释者之间互相不同意见的置信度分数的框架列表,强调了语义框架之间的重叠和不确定性对于训练和评估自然语言处理系统的重要性,同时使用 Framester 系统提供的扩展词形集完成数据处理。
Apr, 2019
LexNLP 是一个面向法律和监管文本的自然语言处理和机器学习的开源 Python 包,提供文档分析、信息识别、实体提取、特征转换、无监督 / 监督模型构建等多个功能,其中包含 18 种结构化信息提取以及预训练模型,并可适用于学术研究和工业应用。
Jun, 2018
本文介绍了一个能够支持自然语言处理工作流的开源框架,该框架包含了一个统一的数据表示方法和一个包含处理器、可视化和注释的大型处理库,提供了简单组装和互操作性,并能够轻松扩展以接入其他自然语言和深度学习库。
Mar, 2021
介绍了一种基于主题建模和深度学习的系统,用于分析和分类文本文档中的框架,该系统提供了预训练的框架分类模型以及适用于用户提供的语料库的新型分类模型的易于使用的流水线,旨在使研究人员能够获得文档的框架
Aug, 2020
本文介绍了一种使用众包方法收集句子中的框架语义歧义注释的方法,以捕捉注释者之间的不一致性,展示了聚合众包注释的结果高于专家语言学家,强调了需要每个句子有多个注释者的必要性,并讨论了众包工人不能达成一致的情况
May, 2018
NLTK 是一套自然语言处理的开源程序模块,提供现成的计算语言学课程内容,包括符号和统计自然语言处理,并与标注语料库接口。学生可以通过示例来学习结构化编程,增强和替换现有组件,并从一开始就操作复杂的模型。
May, 2002
使用 FrameNet 形式主义,本研究探讨了通过生成新句子来保留给定语义结构的任务。我们提出了一个框架,通过过度生成和过滤的方法生成新的框架语义注释句子。我们的结果表明,基于丰富且明确的语义信息进行条件生成往往会产生高人工接受度的生成结果,并对提示和微调均有效。我们生成的框架语义结构注释在低资源环境中对框架语义角色标注的训练数据扩充非常有效;然而,在高资源环境下我们并没有看到好处。本研究得出的结论是,尽管生成高质量、语义丰富的数据可能在一定程度上成为可能,但这种生成结果的下游效用仍有待进一步观察,突出了自动化语言注释任务的尚未解决的挑战。
Jun, 2024
本文旨在通过提出数据增量方法来解决 FrameNet 在语义方面的短板,该方法通过利用现有的特定于框架的标注来自动标注未标注的同一框架的其他词汇单位。我们的基于规则的方法定义了姐妹词汇单位的概念,并为训练生成了特定于框架的增强数据。在 FrameNet 下的全文和词典注释下,我们展示了框架语义角色标注的实验结果,并证明了数据增加对于提高框架语义分析中的先前结果标识和参数识别至关重要,突显了自动资源创建对于改善模型的价值。
Sep, 2021
AllenNLP 是一个基于 PyTorch 平台的自然语言理解深度学习相关的可扩展实验框架,具有智能批量处理和填充的灵活数据 API,高层次的文本操作抽象和模块化可扩展的实验框架。
Mar, 2018