BriefGPT.xyz
Ask
alpha
关键词
task success
搜索结果 - 6
多人模仿学习中的兼容演示引导
研究通过基于人提供的演示的模仿学习来学习机器人操作策略,通过测量新演示与基本策略的兼容性并积极征求新用户的兼容演示,从而改善任务成功率。
PDF
2 years ago
ACL
朝着具有进展意识的自主对话代理的发展
本文提出一种对话代理框架,该框架包括使用 “全局” 对话状态空间的概念、基于会话轨迹计算的任务特定进度函数和基于对话回滚的计划机制,从而让对话代理为下一步响应选择使用任务成功的话题。
PDF
2 years ago
从野外人类视频中学习通用机器人奖励函数
该研究提出了使用 Domain-agnostic Video Discriminator (DVD) 的方法,通过对分类视频完成相同任务的数据进行学习,实现多任务奖励功能的广义推理。通过将人类数据集与机器人数据相结合,该方法可以在未知环境中
→
PDF
3 years ago
MM
利用世界模型进行紧急通信
引入了一种 Language World Models 的生成式模型,用于预测未来观测的潜在代码,提高了对语言信息的理解能力,进而提高了 2D 栅格世界的语音导航任务的任务成功率。
PDF
4 years ago
基于价值限制的无模型连续控制
提出了一种基于 Lagrangian relaxation 的约束强化学习方法,通过同时优化任务奖励和某些辅助成本来确保任务成功,展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上,该方法的有效性。
PDF
5 years ago
通过神经网络评估交谈系统中口语对话的成功,从真实用户学习的强化学习
提出两个神经网络模型,评估一系列对话特征,以无先验知识地对话成功率进行评分并得出能与基于先验知识的系统相媲美的结果,该方法也可用于评估 SDS 并监测基于规则的 SDS 的对话。
PDF
9 years ago
Prev
Next