Jun, 2024

弱奖励模型转化为稳健因果事件提取系统

TL;DR通过训练评估模型以近似人类评估并强调语义理解,我们成功地探索了一种通过多个数据集进行增强学习,并通过将在一个数据集上训练的评估模型转移到另一个数据集以减少对人工注释数据的依赖的方法,同时还提出了一种弱到强监督的方法,用于使用部分标注数据来训练评估模型,并在训练强化学习模型中实现高性能。