Dec, 2023

小数据集,巨大增益:通过基于模型的增强学习的离线预训练来提升性能

TL;DR基于离线数据的强化学习预训练改进的模型数据增强策略,可以减少所需数据规模,并大幅提高在线微调效果和降低环境交互次数。