利用合成数据集对命名实体识别上下文进行排序学习

Oct, 2023

利用合成数据集对命名实体识别上下文进行排序学习

Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset

Arthur Amalvy, Vincent Labatut, Richard Dufour

TL;DR采用 Alpaca 生成合成的上下文检索训练数据集，并使用基于 BERT 模型的神经上下文检索器，为命名实体识别找到相关的上下文，优于基准检索方法。

Abstract

While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To allev

named entity recognition pre-trained transformer-based models long documents synthetic context retrieval training dataset neural context retriever

发现论文，激发创造

命名实体识别中的全局和局部上下文的作用

通过研究预训练基于 transformer 的模型在命名实体识别方面的应用，探索了全局文档上下文与局部上下文之间的关系，发现正确检索全局文档上下文对于性能的影响比仅利用局部上下文更明显，并促使进一步研究如何更好地检索该上下文。

May, 2023

利用外部上下文检索和协同学习提升命名实体识别

本文提出使用搜索引擎检索并选择一些语义相关的文本来找到句子的外部上下文。我们发现，使用合作学习训练模型，可以更好地利用外部上下文提高模型的性能，在 5 个领域的 8 个数据集上取得了最新的最佳成绩。

May, 2021

面向命名实体识别的上下文学习

本研究提出了一种基于上下文学习的命名实体识别方法，通过 PLMs 中的元函数，仅使用少量的示例即可识别新类型的实体，并使用元函数预训练算法将上下文 NER 能力注入 PLMs，实验证明该方法可以显著优于 PLMs + 微调对照组。

May, 2023

从人工针到真实大量数据集：通过在合成数据上进行微调来改进 LLMs 的检索能力

利用合成数据集对大型语言模型进行微调，显著提高了其在长上下文环境下的信息检索和推理能力。

Jun, 2024

长跨度问答：通过并行评估自动生成问题和问答系统排序

通过使用大型语言模型的长期上下文能力，我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程，包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较，并使用 Bradley-Terry 模型进行排名，与绝对评分器相比，提供了一种更一致和区分性更强的评分机制。同时，我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法，并且我们的评估器与人类判断达到了很好的一致性，甚至在数据集中发现了错误。使用我们的自动化评估方法，我们展示了与无上下文（参数化知识）和基于检索的方法相比，使用整本书籍作为上下文可以获得更优秀的阅读理解性能。

May, 2024

LTNER：基于上下文实体标记的大型语言模型命名实体识别

LLMs 在自然语言处理中的应用已成为近两年的热门趋势，然而，对于某些 NLP 任务，如 NER，在与监督学习方法相比较时，LLMs 的性能仍然不足以胜任。我们的研究开发了一种名为 LTNER 的 NER 处理框架，该框架融入了一种革命性的上下文化实体标记生成方法，通过利用成本效益高的 GPT-3.5 以及无需额外训练的上下文学习，显著提高了 LLMs 在处理 NER 任务时的准确性。在 CoNLL03 数据集上的 F1 得分从初始的 85.9% 增加到 91.9%，接近了监督微调的性能，这一结果增进了对 LLMs 潜力的深入认识。

Apr, 2024

面向上下文的神经机器翻译学习

本文中，我们提出了一种新的学习算法，用于增进神经机器翻译模型对附加上下文的理解，通过使用多级成对排名损失函数，我们在基于 transformer 的大语境翻译系统中进行了评估，并通过与实际和随机语境下的性能对比表明，使用所提出的算法训练的模型对额外上下文的理解更敏感。

Mar, 2019

使用 BERT 探索跨句子上下文进行命名实体识别

本文系统研究了使用 BERT 模型处理跨句子信息识别命名实体的方法，并提出了 Contextual Majority Voting (CMV) 算法。在 CoNLL'02 和 CoNLL'03 数据集上实验表明，该算法在英语、荷兰语和芬兰语上的命名实体识别效果均优于现有 BERT 算法的成果，德语效果最佳，西班牙语表现与其他 BERT-based 方法相当。

Jun, 2020

少样本命名实体识别：综合研究

本文提出了一种有效地建立识别命名实体（NER）系统的方法，基于最近的基于转换器的自我监督预训练语言模型（PLMs），并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力，通过大量实验结果表明，我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法，同时在无训练和少样例学习环境下建立了最新的业界记录。

Dec, 2020

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017