ADELIE：信息抽取中的大型语言模型对齐

May, 2024

ADELIE：信息抽取中的大型语言模型对齐

ADELIE: Aligning Large Language Models on Information Extraction

Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou...

TL;DR使用 ADELIE 模型与高质量对齐数据集 IEInstruct 进行指令调整和直接优化，实现了信息抽取任务的最新性能，并探索了 ADELIE 的通用能力。

Abstract

large language models (LLMs) usually fall short on information extraction (IE) tasks and struggle to follow the complex instructions of IE tasks. This primarily arises from LLMs not being aligned with humans, as

large language models information extraction adelie alignment corpus ieinstruct state-of-the-art performance

发现论文，激发创造

从 LLM 中提炼元模型用于各类信息提取任务

我们提出了一个称为 MetaIE 的新框架，通过学习提取 “重要信息” 来构建一个小型元模型，使得这个元模型可以有效和高效地适应各种信息提取任务，在少样本适应设置下获得更好的性能。

Mar, 2024

IEPile: 挖掘大规模基于模式的信息抽取语料库

通过构建综合的双语（英语和汉语）信息抽取指示语料库 IEPile，可以提高大语言模型在信息抽取中的性能，尤其是零样本泛化能力。

Feb, 2024

利用增强的指令对大型语言模型进行精细化信息提取的基准测试

引入了一种为大型语言模型定制的细粒度信息抽取基准数据集，通过评估发现编码器 - 解码器模型在泛化到未见过的信息类型方面表现良好，而 ChatGPT 对于新任务形式具有更大的适应性。结果还表明，性能不仅仅取决于模型规模，还强调了架构、数据多样性和学习技术的重要性。这项工作为在信息提取中更精细、更灵活地利用大型语言模型铺平了道路。

Oct, 2023

大型语言模型用于生成式信息提取：一项综述

信息提取是从自然语言文本中提取结构化知识（如实体、关系和事件）的过程。最近，生成式大型语言模型（LLMs）在文本理解和生成方面展示出了显著的能力，允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索，我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述，然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查，我们确定了一些技术见解和有希望进一步探索的研究方向，值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源：https://github.com/quqxui/Awesome-LLM4IE-Papers。

Dec, 2023

评估中文开源大型语言模型在信息抽取任务中的性能

本文针对零样本情况下中文开源大型语言模型在信息抽取任务中的性能进行了综合调查和分析，同时通过少样本实验评估了这些模型的能力，并与 ChatGPT 等广泛认可的语言模型在信息抽取性能上进行了比较分析，旨在提供对现有中文开源大型语言模型在自然语言处理中信息抽取领域的优势、限制和潜在增强的洞察。

Jun, 2024

基于预训练语言模型的高效开放信息抽取数据学习

通过将 OpenIE 任务形式巧妙地转换为 T5 模型的预训练任务形式，并引入锚点的创新概念，OK-IE 显著减少了对大量训练数据的需求，消除了模型收敛速度慢的问题，实验结果显示，相较于之前的 SOTA 方法，OK-IE 仅需 1/100 的训练数据量（900 个实例）和 1/120 的训练时间（3 分钟）即可达到可比较的结果。

Oct, 2023

利用大型语言模型和一致的推理环境掌握开放信息提取任务

通过构建合适的推理环境，本文探索利用大型语言模型（LLMs）解决开放式信息抽取（OIE）问题，实验结果表明，相较于最先进的监督方法，我们的 6-shot 方法在标准 CaRB 基准上实现了 55.3 的 F1 分数，同时在 TACRED 和 ACE05 上实验结果显示，我们的方法可以自然地推广到其他信息抽取任务，并分别获得了 5.7 和 6.8 的 F1 分数提升。

Oct, 2023

GoLLIE：注释指南提升零样本信息提取

GoLLIE 模型是一种基于大型语言模型的信息抽取模型，通过遵循详细的注释指南，能够在未见过的任务上获得零样本结果，并在综合评估中表现优于之前的尝试。

Oct, 2023

指导与提取：面向按需信息提取的指令调优

基于大型语言模型的指令跟随能力，我们提出了新的范式：按需信息提取，以满足真实用户的个性化需求。通过 InstructIE 基准测试及 ODIE 模型，我们展示了在信息提取领域的显著性能提升。

Oct, 2023

GIELLM：利用相互增强效应的日语通用信息抽取大型语言模型

信息抽取是自然语言处理中的基石，传统上被细分为不同的子任务。大型语言模型的出现预示着一种新的范式转变，即单一模型能够解决多个信息抽取子任务。本文引入通用信息抽取大型语言模型（GIELLM），它通过统一的输入输出架构整合了文本分类、情感分析、命名实体识别、关系抽取和事件抽取。这次创新标志着一个模型首次同时处理如此多样的信息抽取子任务。值得注意的是，GIELLM 利用了互相增强效应（MRE），在综合任务中提高了性能，与各自孤立的任务相比。我们的实验证明，在六个日语混合数据集中，我们在五个数据集中取得了最先进的结果，明显超过了 GPT-3.5-Turbo。此外，使用新颖的文本分类关系和事件抽取（TCREE）数据集进行的独立评估证实了 MRE 在文本和词分类中的协同优势。这一突破为大多数信息抽取子任务在一个统一的 LLM 框架下合并提供了可能，不再需要专门的微调任务特定模型。

Nov, 2023