BriefGPT.xyz
Ask
alpha
关键词
conversational metrics
搜索结果 - 1
通过将一个全局显式注释分解为本地隐式多模态反馈以提升对话代理
本研究通过全局(即对话级别)奖励来对齐基于 LLM 的对话代理,并考虑自然出现的多模态信号。该方法学习了一个本地的、以轮为单位的奖励模型,通过分解人工提供的全局显式(GE)会话级奖励,使用本地隐式(LI)多模态奖励信号来跨模态地塑造奖励分解
→
PDF
4 months ago
Prev
Next