Feb, 2024

熵正则化的基于点的价值迭代

TL;DR模型基于策划者在部分可观测问题中必须适应策划过程中的模型和目标不确定性。受无模型设置的结果启发,我们提出了一种熵正则化的模型基于策划者来解决部分可观测问题。通过鼓励策略在规划和目标推理中不过度承诺单一行动,熵正则化提升了策略的鲁棒性和目标推理性能。我们在三个问题领域评估了熵正则化策略的鲁棒性和目标推理性能,并结果显示,在模型错误下的期望回报更高,目标推理中的准确性更高。