BriefGPT.xyz
大模型
Ask
alpha
关键词
parallel access
搜索结果 - 2
相互对齐迁移学习
通过强化学习在模拟环境中训练机器人并结合补充奖励策略,与真实机器人进行进一步的微调来优化探索策略,实验结果表明,这种相互对齐的方法可以在真实和模拟环境中实现更好的性能。
PDF
7 years ago
关于年轻选举的获胜者问题的精确复杂度
本文研究了三种投票方案的胜者问题和排名问题的复杂度,发现 Young 的方案和 Lewis Carroll 的方案都是 NP 难问题,而 Fishburn 的方案可以通过线性规划高效求解。
PDF
23 years ago
Prev
Next