Sep, 2018

将行为约束纳入在线 AI 系统

TL;DR通过行为约束的观察来学习一组行为约束的新型在线代理,称为 Behavior Constrained Thompson Sampling(BCTS)。我们提供了一个新算法,允许在遵守外生约束条件的情况下进行在线学习。我们的实验表明,这种代理能够在行为约束集合内运行,而不会明显降低其整体奖励性能。