Oct, 2023

强化学习中的非遍历性:通过遍历性转换提高鲁棒性

TL;DR通过学习数据转化的算法,我们能够解决传统优化目标导致的鲁棒性不足问题,在强化学习中,该问题可通过学习人工智能在非遍历环境中获得的长期回报来优化个体代理而不是无限数量的轨迹的平均值。