BriefGPT.xyz
大模型
Ask
alpha
关键词
seer method
搜索结果 - 2
通过对齐的经验估计实现高效的基于偏好的强化学习
PbRL 方法 SEER 通过整合标签平滑和策略规则化技术,提高了反馈效率,取得了显著的性能优势。
PDF
a month ago
SEER: 通过强化学习促进结构化推理和解释
通过提出 SEER 方法,我们在建立问答系统中,给出结构化解释,提高系统的可解释性和可靠性;实验证明,SEER 方法显著优于现有方法,在 EntailmentBank 上的绝对改进率达到了 6.9%,在 STREET 基准上平均提升了 4.
→
PDF
5 months ago
Prev
Next