BriefGPT.xyz
Ask
alpha
关键词
task-specific rewards
搜索结果 - 2
ICML
使用数据驱动指导学习任务无关技能
本文提出了一种使用学习的状态投影来引导技能发现,从而使得强化学习的代理人在特定任务中获得了更有用的行为。
PDF
3 years ago
ACL
多智能体通信与自然语言:功能与结构语言学之间的协同
本文介绍一种结合多智能体通信和传统数据驱动方法的自然语言学习方法,通过在自身玩耍的环境中生成任务特定的奖励来适应或调节模型,形成任务条件化语言模型,并引入了一种基于语言模型样本重新排序的新方法,以优于其他方法地与人类进行视觉指称交流任务的通
→
PDF
4 years ago
Prev
Next