BriefGPT.xyz
Ask
alpha
关键词
win rate
搜索结果 - 3
再思基于 LLM 的偏好评估
最近,使用大型语言模型(LLM)进行偏好评估已被广泛采用来比较模型回答的优劣。然而,观察到一种严重偏向较长回答的偏差,引发了对这种评估方法可靠性的关注。通过一系列实验,我们设计了这项工作,研究了 LLM-based 偏好评估指标的主要影响因
→
PDF
5 days ago
AlphaStar Unplugged:大规模离线强化学习
这篇论文在 StarCraft II 这个具有挑战性的强化学习环境中,利用大量的离线数据集和机器学习方法,建立了一个新的基准 AlphaStar Unplugged,提出了离线强化学习的前沿技术,并且取得了 90% 的胜率。
PDF
a year ago
博弈论目标空间规划
本文通过提出基于游戏理论规划者的智能车辆监管方案,并结合后悔最小化技术,用以优化智能车辆的胜率,实现多智能体环境下的自主行驶。
PDF
2 years ago
Prev
Next