CodeIE:大型代码生成模型比小规模模型更适用于少样本信息提取
信息提取是从自然语言文本中提取结构化知识(如实体、关系和事件)的过程。最近,生成式大型语言模型(LLMs)在文本理解和生成方面展示出了显著的能力,允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索,我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述,然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查,我们确定了一些技术见解和有希望进一步探索的研究方向,值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源:https://github.com/quqxui/Awesome-LLM4IE-Papers。
Dec, 2023
Code4UIE 是基于 LLMs 的一种通用检索增强代码生成框架,针对信息抽取任务。它采用 Python 类来以通用方式定义各种结构化知识的任务特定模式,并且利用上下文学习机制指导 LLMs 生成恰当的代码,以从文本中提取知识。Code4UIE 通过多种示例检索策略探索语义上与给定文本相似的示例,通过五个代表性的信息抽取任务在九个数据集上的广泛实验验证了该框架的有效性。
Nov, 2023
引入了一种为大型语言模型定制的细粒度信息抽取基准数据集,通过评估发现编码器 - 解码器模型在泛化到未见过的信息类型方面表现良好,而 ChatGPT 对于新任务形式具有更大的适应性。结果还表明,性能不仅仅取决于模型规模,还强调了架构、数据多样性和学习技术的重要性。这项工作为在信息提取中更精细、更灵活地利用大型语言模型铺平了道路。
Oct, 2023
本文展示了通过将结构化常识推推理任务框架化为代码生成任务,使用代码生成语言模型(CODEX)可以在自然语言任务上优于 T5 和 GPT-3 等先进语言模型,即使任务并不涉及源代码。
Oct, 2022
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023
本研究对基于大型语言模型的对话 UI 进行了研究,目标是实现上下文感知的工具,该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件,允许用户使用高级请求查询后端(例如 OpenAI 的 GPT-3.5 和 GPT-4),我们进行了 32 名参与者的探索性用户研究,研究确认这种方法比 Web 搜索更有效地帮助理解代码,但效果的差异因参与者的经验水平而异。
Jul, 2023
提出了一个新的框架,通过集成传统自然语言处理工具,从自然语言需求文本中提取关键词短语,并生成目标代码以解决需求,从而有效提高代码大型语言模型的性能。通过创建一个新的多自然语言代码生成基准测试集,实验证明了该框架的有效性。
Jan, 2024
本文针对零样本情况下中文开源大型语言模型在信息抽取任务中的性能进行了综合调查和分析,同时通过少样本实验评估了这些模型的能力,并与 ChatGPT 等广泛认可的语言模型在信息抽取性能上进行了比较分析,旨在提供对现有中文开源大型语言模型在自然语言处理中信息抽取领域的优势、限制和潜在增强的洞察。
Jun, 2024
我们提出了一个称为 MetaIE 的新框架,通过学习提取 “重要信息” 来构建一个小型元模型,使得这个元模型可以有效和高效地适应各种信息提取任务,在少样本适应设置下获得更好的性能。
Mar, 2024
信息抽取是自然语言处理中的基石,传统上被细分为不同的子任务。大型语言模型的出现预示着一种新的范式转变,即单一模型能够解决多个信息抽取子任务。本文引入通用信息抽取大型语言模型(GIELLM),它通过统一的输入输出架构整合了文本分类、情感分析、命名实体识别、关系抽取和事件抽取。这次创新标志着一个模型首次同时处理如此多样的信息抽取子任务。值得注意的是,GIELLM 利用了互相增强效应(MRE),在综合任务中提高了性能,与各自孤立的任务相比。我们的实验证明,在六个日语混合数据集中,我们在五个数据集中取得了最先进的结果,明显超过了 GPT-3.5-Turbo。此外,使用新颖的文本分类关系和事件抽取(TCREE)数据集进行的独立评估证实了 MRE 在文本和词分类中的协同优势。这一突破为大多数信息抽取子任务在一个统一的 LLM 框架下合并提供了可能,不再需要专门的微调任务特定模型。
Nov, 2023