BriefGPT.xyz
Ask
alpha
关键词
risk-averse batch active inverse reward design
搜索结果 - 1
风险规避的批次主动逆向奖励设计
通过批处理逐渐优化查询的可能奖励函数的概率分布,在保证安全性的同时,提高效率和准确性,以及适应处理未知特征并对重要的 AI 模型进行调整。
PDF
8 months ago
Prev
Next