BriefGPT.xyz
Ask
alpha
关键词
task success rate
搜索结果 - 3
选择感知:用增强学习优化语言模型演员的状态描述
利用大规模语言模型(LLM)作为序贯决策制定任务的参与者,在机器人和游戏等领域应用它们的普适世界知识和规划能力;在此文献中,我们提出了一种称为 BLINDER 的方法,用于通过学习任务条件化状态描述的价值函数自动选择简明的状态描述,在 Ne
→
PDF
a year ago
分层引导辅助大型语言模型进行网络导航
通过一种分层提示方法,对互动决策中复杂的观察进行处理,特别在 Web 导航的复杂领域中,该方法的任务成功率比最先进的提示机制提高了 6.2%,展示了它对具有长观察跟踪的交互决策任务的潜力。
PDF
a year ago
IJCAI
三思而后言:通过计划单次对话来改善多次对话策略
本文提出了一种基于多任务学习框架的 Planning Enhanced Dialog Policy (PEDP) 方法,使用模型规划来模拟单动作对话,从而增强多动作预测,实现了相对于现有状态下最先进方法的 3% 提高,达到了 90.6% 的
→
PDF
2 years ago
Prev
Next