本文通过对六种跨度表示方法和八个预训练语言模型在六个任务中的综合实证评估,发现即使有些简单跨度表示在多个任务中相对可靠,但一般来说最优跨度表示方法因任务而异,也可能因不同任务的不同方面而异。同时,我们还发现,与精细调整的编码器相比,跨度表示的选择对于预先训练的编码器具有更大的影响。
Jun, 2020
本文提出一种基于标记跨度和跨度之间关系的统一格式的思想,成功应用于语法、语义、信息内容,情感等多种自然语言处理任务,其结构化的方法能将不同任务转化为相同的格式,同时得到较高的性能表现,并提出多任务学习的优势。最后作者将各数据转换为统一格式来建立一个基准测试,提供了一个综合的测试平台,用于评估未来模型对于通用自然语言处理的表现。
Nov, 2019
本研究提出了一种基于语法的结构化跨度选择模型,旨在改进自然语言处理中的跨度选择问题,经测试该模型在两种跨度预测任务中均有显著提升。
May, 2022
本文是关于跨度查找的实证研究,着重探讨了可用于训练端到端信息提取系统的方法,并发现在不考虑任务属性的情况下,没有明确的解决方案。观察发现:1)标记方法通常具有更高的精度,而跨度枚举和边界预测提供更高的召回率;2)跨度类型信息对边界预测方法有益;3)在大多数情况下,额外的上下文信息对跨度查找没有帮助。
Oct, 2022
本文研究了使用 span prediction 和 sequence labeling 框架进行命名实体识别的优缺点,并提出了系统组合的方法来重新识别来自不同系统的命名实体,并在 11 个数据集上进行了 154 个系统的实验,证明了 span prediction 也可以作为基础 NER 系统和系统组合器,同时也将我们的模型部署到 ExplainaBoard 平台上。
Jun, 2021
通过实证分析命名实体识别,我们展示了一种能够在不牺牲性能的前提下开发具有高可解释性的模型,其具有可解释的推理过程并学习了跨度之间的相似性的基于实例的学习方法。
Apr, 2020
本文提出了一种新颖的神经结构来解决实体识别的问题,通过分离边界检测和类型预测、并联合优化来代替传统的标签 Hard-code 方法。这种架构可以在处理各种类型数据的同时保持高效率和简单性,并能帮助解决实体分类的问题。
Dec, 2016
本论文的研究表明,使用统一的 span extraction 方法可以在多个任务中取得优越或可比的性能,而不必采用不同的输出层(如 span decoder 和 fixed-class classification layers 等)来适应不同的任务,这可应用在多种领域,如预训练语言编码、少数据学习和多任务学习等。
Apr, 2019
通过 SpanEx 数据集和社区检测方法,研究了自然语言理解中的跨度推理,包括事实核查和机器阅读理解,并与人类推理过程进行了比较。
Oct, 2023
信息抽取是自然语言处理(NLP)中的一系列任务,用于识别文本中的子序列及其标签,并链接自由文本和结构化数据。本文提出了一种以文本片段为中心的统一视角,将多样的信息抽取任务重新定位为同一基本的以文本片段为导向的信息抽取任务。
Mar, 2024