LIEDER：语言信息引导的论述实体识别评估

Mar, 2024

LIEDER：语言信息引导的论述实体识别评估

LIEDER: Linguistically-Informed Evaluation for Discourse Entity Recognition

Xiaomeng Zhu, Robert Frank

TL;DR语篇实体识别任务中，大型语言模型在识别基本的语篇实体方面展现出一定的能力，但对于控制语篇实体引入和后续参照的基本语义特性了解程度的评估仍未充分。本文提出了 Linguistically-Informed Evaluation for Discourse Entity Recognition（LIEDER）数据集，详细检测了语言模型对于存在、唯一性、复数性和新颖性这四个关键语义特性的知识。研究结果显示，目前最先进的大型语言模型对于除新颖性以外的所有特性表现出敏感性，这说明它们在人类级别的语言理解能力上还有一定差距。

Abstract

Discourse Entity (DE) recognition is the task of identifying novel and known entities introduced within a text. While previous work has found that large language models have basic, if imperfect, DE recognition abilities (Schuster and Linzen, 2022), it remains largely unassessed which of the fundamental →

discourse entity recognition large language models semantic properties linguistically-informed evaluation for discourse entity recognition novelty

发现论文，激发创造

文档连贯性建模评估

在理解预训练语言模型对话建模能力方面，我们提出了一种句子入侵检测任务，并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD，显示预训练 LM 在域内评估中表现出色，但在跨域设置中经验了大幅下降，表明其对跨域推广的能力有限。进一步的，在一个新的语言探测数据集上的结果表明，在跨域设置中有很大的改进空间。

Mar, 2021

为生成式语言模型进行知情命名实体识别解码

提出了一种简单而有效的方法，Informed Named Entity Recognition Decoding (iNERD)，将命名实体识别视为一种生成过程，利用近期生成模型的语言理解能力，并采用了基于信息提取的有限文本生成的解码方案，以提高性能和消除幻觉风险，我们在合并的命名实体语料库上训练了模型，评估了五个生成语言模型在八个命名实体识别数据集上的表现，并取得了显著的结果，特别是在未知实体类别集的环境中，展示了该方法的适应性。

Aug, 2023

通往语言无关的命名实体链接之路

本文介绍了 LIEL，一种语言无关的实体链接系统，通过使用区分重排框架和许多不受领域和语言限制的特征函数，它可以在多种不同的语言中工作。在各种基准数据集上的实验表明，该系统在英语上表现出色，在训练过英语的情况下，也可以很好地工作在西班牙语上，这证明了该方法的可行性。

Dec, 2017

文本语言识别

利用微博和深度学习技术，研发了一种可靠的语言识别引擎，在 Discriminating between Similar Languages (DSL) Shared Task 2015 数据集上达到了 95.12% 的准确率。

Jan, 2017

跨语言命名实体识别的增强迭代知识蒸馏

本文描述了微软在交叉语种命名实体识别中的新实践方法，使用源语种的标注数据和目标语种的无标注数据，采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。

Jun, 2021

近期命名实体识别研究进展综述

命名实体识别（NER）旨在从文本中提取命名真实世界对象并确定它们的类型，本文首先概述了最近流行的方法，然后探讨了其他调查中较少涉及的基于图和变换器的方法，包括大型语言模型（LLMs）。其次，重点介绍了适用于稀缺注释数据集的方法。第三，我们评估了主要 NER 实现在不同类型的数据集上的性能，并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。

Jan, 2024

中文文学文本的语篇级别命名实体识别和关系抽取数据集

本文构建了一个基于语篇水平的汉语文学语料库，提出两种标记方法来解决数据不一致性的问题，并介绍了几种常用模型进行实验，研究结果不仅展示了该数据集的可用性，而且为进一步的研究提供了基线。

Nov, 2017

命名实体识别的深度学习调查

本文基于三个维度的分类法，系统地回顾了深度学习在命名实体识别上的应用技术，并介绍了面临的挑战和未来的研究方向。

Dec, 2018

使用 BERT 实现通用语言命名实体识别

本文研究了一种基于多语言 BERT 的单一命名实体识别模型，使用多任务学习和分块更新规则等正则化策略优化模型，并证明在多种语言数据集上表现优于专注于单一语言模型，并能够进行零样本预测。

Nov, 2019

辅助实体的语言模型用于识别值得检查的句子

提出了一种新的文本分类和排序框架，该框架可以自动化地识别政治辩论和演讲文本中值得核查的句子，这种框架结合了句子的语义分析和通过句子中已识别的实体获得的额外实体嵌入，使用五种不同的语言模型、六种不同的知识图谱嵌入模型以及两种组合方法实例化，然后进行了广泛的评估，结果显示神经语言模型明显优于传统的 TF.IDF 和 LSTM 方法，其中 ALBERT 模型始终是所有测试的神经语言模型中最有效的模型，实体嵌入与知识图谱嵌入一起使用明显优于现有基于句子实体之间相似性和相关性分数的文献方法。

Nov, 2022