Nov, 2023

风险规避的批次主动逆向奖励设计

TL;DR通过批处理逐渐优化查询的可能奖励函数的概率分布,在保证安全性的同时,提高效率和准确性,以及适应处理未知特征并对重要的 AI 模型进行调整。