BriefGPT.xyz
Ask
alpha
关键词
behavior space
搜索结果 - 2
通过人类反馈实现多样性
通过人类反馈学习行为空间,结合适当的距离度量,提出了一种名为 DivHF 的通用方法,该方法能更好地符合人类要求,并在人类偏好下得到更多样化的解决方案。
PDF
9 months ago
质量 - 多样性转换器:使用决策 Transformer 生成行为条件轨迹
该研究提出了一种新的方法来实现基于行为的轨迹生成,该方法基于 MAP-Elites Low-Spread 和 Quality-Diversity Transformer 两个机制,实现了在不确定环境下生成具有一致性、鲁棒性和可重复性的多样化
→
PDF
a year ago
Prev
Next