Jan, 2024

基于生成强化的变压器的指令上下文增强方法

TL;DR利用人类反馈的强化学习从 PPO 出发,ICE-GRT 在特定领域任务中展示了出色的能力,同时保持了通用任务性能,在小型模型中表现了分析能力的下降。