BriefGPT.xyz
Ask
alpha
关键词
misaligned cost distributions
搜索结果 - 1
ICML
上下文强化学习中的热启动:鲁棒地结合监督学习和 Bandit 反馈
本文研究了同时利用有标签的监督数据和上下文匹配数据进行学习的可行性,提出并证明了对于两种数据源之间成本分布不匹配的情况下具有鲁棒性的无遗憾算法,通过大量数据集的实证研究表明了我们的方法既实用又可行。
PDF
6 years ago
Prev
Next