BriefGPT.xyz
Ask
alpha
关键词
reinforced self-training
搜索结果 - 4
ReST-MCTS*: LLM 自训练通过过程奖励引导的树搜索
基于强化学习的 ReST-MCTS* 方法结合过程奖励模型与树搜索 MCTS*,获取高质量的推理轨迹用于训练策略和奖励模型,在 LLM 自我训练中取得了更高的准确性和性能。
PDF
a month ago
CVPR
利用自我训练大型语言模型改进视觉程序合成与视觉强化
利用交互式经验反馈改进大规模语言模型的视觉程序合成能力,通过利用现有的视觉语言任务注释为该任务创造一个粗略的奖励信号,将语言模型作为一种策略,并应用增强的自训练,显示出在对象检测、复合视觉问答和图像 - 文本检索方面,经过自训练的语言模型在
→
PDF
3 months ago
强化自训练(ReST)的语言建模
ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法,可以有效地提高机器翻译的质量和效率。
PDF
a year ago
机器阅读理解的稳健领域自适应
本文提出了一种名为 RMRC 的方法,使用对话和领域自适应技术构建问题 - 答案对,通过答案提取器和问题选择器以及增强式自训练方法进行优化,从而解决机器阅读理解中因领域迁移引起的问题,包括噪声对应和效率降低,实验证明了该方法的有效性。
PDF
2 years ago
Prev
Next