Dec, 2023

风险感知的神经上下文点臂连续控制

TL;DR我们提出了一个风险感知的决策框架,用于处理上下文褒贬问题,并满足实际环境中的约束条件,通过采用一个多批评者的角色体系来平衡约束满足度和性能。