BriefGPT.xyz
Ask
alpha
关键词
online alignment
搜索结果 - 3
真实为贵:将大型语言模型与在线人类行为对齐
本文提出了一种对齐框架,名为人类行为强化学习(RLHB),通过直接利用真实的在线人类行为来对齐大型语言模型,并采用生成对抗框架训练生成器按照预期的人类行为进行回复,鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境,在自然语言形式
→
PDF
2 months ago
基于离线强化学习的在线符号音乐对齐
该研究介绍了一种基于强化学习的在线符号音乐对齐技术,利用注意力机制的神经网络估计乐谱位置,并通过三种方式进行评估,优于当前最先进的离线符号音乐对齐模型。
PDF
6 months ago
ACL
基于原则的词汇约束解码的准确在线后验对齐
本文介绍了一种在线翻译对齐技术,该技术可以帮助用户将自定义的字典注入到翻译模型中,并可以与之前的约束性搜索技术集成,从而有效解决了机器翻译中的对齐问题。经实验证明,在 5 种不同的语言对和 7 项翻译任务中,对齐错误率显著降低,BLEU 得
→
PDF
2 years ago
Prev
Next