EventRL: 利用结果监督增强大型语言模型的事件提取

Feb, 2024

EventRL: 利用结果监督增强大型语言模型的事件提取

EventRL: Enhancing Event Extraction with Outcome Supervision for Large Language Models

Jun Gao, Huan Zhao, Wei Wang, Changlong Yu, Ruifeng Xu

TL;DR本研究提出了 EventRL，一种强化学习方法，用于改进大型语言模型（LLMs）的事件提取。通过特定的奖励函数和结果监督，EventRL 有效解决了 LLMs 中的指令遵循和虚构等问题，改进了事件识别和结构化的性能，特别是在处理新事件类型方面。研究强调了奖励函数选择的关键作用，并展示了在事件提取中引入代码数据的益处。增加模型大小可以提高准确性，但保持泛化能力至关重要以避免过拟合。

Abstract

In this study, we present eventrl, a reinforcement learning approach developed to enhance event extraction for →

eventrl reinforcement learning event extraction large language models reward function selection

发现论文，激发创造

EvEntS ReaLM: 基于语言模型的实体状态事件推理

本文研究事件涵义的模型，通过探讨其对物理属性的理解能力来预测实体状态变化。作者发现，传统的大型语言模型无法很好地理解这方面的知识；而通过适当的提示方式，它们的性能可以得到极大的提升，尤其是对于未知的属性或数据信息不足的情况。

Nov, 2022

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

从大型语言模型中提取事件序列知识

利用大型语言模型生成事件序列，填补知识图中的知识空白，并通过模式挖掘和概率事件模型发现有用的和更复杂的结构化知识。

Jan, 2024

通过细粒度强化学习和最小编辑约束改进大型语言模型

用新的 RL 方法 RLMEC，结合生成模型作为奖励模型，通过编写最小错误重写任务的错误解决方案，为 RL 训练产生基于令牌级的奖励，同时设计了基于令牌级的 RL 目标和基于模仿的正则化，以减少其他不重要令牌的影响，并证明了该方法在数学任务和问答任务中的有效性。

Jan, 2024

ESRL: 高效基于采样的序列生成的强化学习

通过引入两阶段取样和动态取样方法，我们提出了一种提高强化学习中序列生成模型取样效率的方法。我们在传统的序列生成任务上进行了实验，包括机器翻译和摘要生成。实验结果表明，这种高效取样的强化学习方法 ESRL，在训练效率和内存消耗方面都优于基线方法，并且持续获得比 REINFORCE、最小风险训练和近端策略优化方法更好的性能。

Aug, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

通过逆序课程强化学习训练大规模语言模型

本研究提出了一种名为 R^3 的学习推理的逆向课程强化学习方法，该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示，使用逐步课程逐渐滑动推理起始状态，以便在所有阶段更容易地进行模型探索，从而允许结果监督提供逐步信号并准确定位错误。使用 Llama2-7B，在八个推理任务上，我们的方法平均超过基于强化学习的基线 4.1 个点。值得注意的是，在基于程序的推理任务 GSM8K 上，与不使用任何额外数据的基线相比，Codellama-7B + R^3 在三个骨干模型上的表现相当于更大的模型或闭源模型。

Feb, 2024

基于标签敏感奖励的增强学习在自然语言理解中的应用

通过引入标签敏感的奖励机制，增强了大规模语言模型在自然语言理解任务中的性能，相比有监督微调模型和基于增强学习的模型，平均性能提升分别为 1.54% 和 0.69%。

May, 2024

逐步强化

通过利用人类反馈的强化学习方法，本研究探索了两种奖励机制：基于结果监督的奖励模型和基于过程监督的奖励模型，以优化语言模型的逻辑推理能力，结果显示基于过程监督的方法可以提高简单数学推理的准确性，但意外地降低了复杂任务的表现，并且认为奖励聚合函数在模型性能中扮演着关键的作用，强调有必要进一步研究细粒度奖励模型以提高语言模型的可靠性。

Nov, 2023

语言模型可通过少量示例引入推理，从而提高事件预测能力

本文研究了大型语言模型在实际事件中实现推理的能力，设计了一个建模和预测框架，其中大型语言模型执行推断，以协助事件序列模型提高预测准确性，并通过在 Amazon Review 和 GDELT 两个具有挑战性的实际数据集上进行的广泛实验，展示了我们的框架的性能优势。

May, 2023