弱奖励模型转化为稳健因果事件提取系统

Jun, 2024

弱奖励模型转化为稳健因果事件提取系统

Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems

Italo Luis da Silva, Hanqi Yan, Lin Gui, Yulan He

TL;DR通过训练评估模型以近似人类评估并强调语义理解，我们成功地探索了一种通过多个数据集进行增强学习，并通过将在一个数据集上训练的评估模型转移到另一个数据集以减少对人工注释数据的依赖的方法，同时还提出了一种弱到强监督的方法，用于使用部分标注数据来训练评估模型，并在训练强化学习模型中实现高性能。

Abstract

The inherent ambiguity of cause and effect boundaries poses a challenge in evaluating causal event extraction tasks. Traditional metrics like Exact Match and BertScore poorly reflect model performance, so we trai

cause and effect boundaries causal event extraction tasks evaluation models semantic understanding weak-to-strong supervision

发现论文，激发创造

从弱监督中引发强能力：弱到强的泛化

通过弱监督模型来训练强大的预训练模型，研究发现在自然语言处理、国际象棋和奖励建模任务中，弱模型引导强模型的普遍性能要优于弱模型，但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法，可以在自然语言处理任务中获得接近 GPT-3.5 级性能，这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。

Dec, 2023

弱监督和半监督证据提取

本文介绍了一种结合少量证据注释和大量文档级别标签的新方法，用于证据提取任务，同时对两个包含证据注释的分类任务进行评估，发现我们的方法优于在解释性文献适用的基线方法。将少至百个证据注释运用到该方法中可得到显著收益。

Nov, 2020

EventRL: 利用结果监督增强大型语言模型的事件提取

本研究提出了 EventRL，一种强化学习方法，用于改进大型语言模型（LLMs）的事件提取。通过特定的奖励函数和结果监督，EventRL 有效解决了 LLMs 中的指令遵循和虚构等问题，改进了事件识别和结构化的性能，特别是在处理新事件类型方面。研究强调了奖励函数选择的关键作用，并展示了在事件提取中引入代码数据的益处。增加模型大小可以提高准确性，但保持泛化能力至关重要以避免过拟合。

Feb, 2024

弱到强泛化的增益量化

使用弱模型生成的标签对强模型进行微调可以显著提高强模型性能，本文提出了一个理论框架来解释这种弱到强的泛化现象，并通过多种实证评估验证了理论发现。

May, 2024

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020

从文本分类到生成的贝叶斯弱强弱强

当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时，本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了 WeakS-to-Strong 的扩展，模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导 WeakS-to-Strong 的泛化，并将其应用于文本生成任务，研究了更先进的监督策略，并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性，并显示其在超级对齐方面的潜力。

May, 2024

语言奖励模型的不确定性估计

该论文探讨了利用不确定性估计技术提高样本效率和鲁棒性的方法，其中提出了利用打包聚合技术训练奖励模型，但研究结果显示，集成主动学习并不比随机采样更有效。

Mar, 2022

评估问题生成模型的奖励

该研究采用强化学习方法，使用 policy gradient methods 对质量度量进行直接优化，以解决 Seq2Seq 架构中 exposure bias 导致的错误扩散，从而提高问题生成的质量。同时发现先前被认为是好的指标实际上与人类判断不太相关。

Feb, 2019

朝着现实低资源关系抽取的方向：具有实证基线研究的基准测试

本文通过三种不同的方案对低资源情况下关系抽取系统进行了全面研究，并创建了包含 8 个 RE 数据集的基准，示范了不同的方法与结合的影响，结果表明虽然基于提示的调整有助于低资源 RE，但在从跨句子上下文中提取多个关系三元组时仍有很大改善潜力，数据增强与自我训练可以较好地充实现有基准，并可带来很多性能提升，然而自我训练并不能始终实现低资源关系抽取的进步。

Oct, 2022

STAR: 利用大语言模型生成结构化文本数据增强低资源事件抽取

使用大型语言模型，提出 STAR 数据生成方法用于改善低资源事件抽取表现，数据生成比人工标注更有效。

May, 2023