BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-turn tasks
搜索结果 - 2
语言代理的多轮偏好直接优化
通过使用 DMPO 损失函数,对多回合任务中的大型语言模型(LLMs)进行适应,可以优化强化学习(RL)目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。
PDF
13 days ago
LLM 对于面向任务的对话系统是否足够?
本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力,发现在显式信仰状态跟踪方面,它们表现不如专门的任务特定模型,但是如果给出正确的插槽值,它们表现出将对话引导到成功结局的能力,并且在有真实信仰状态分布或域内示例的情况下,这种能
→
PDF
a year ago
Prev
Next