ICMLDec, 2020

价值观对齐验证

TL;DR研究如何在理性和启发式验证测试的情况下,通过最少的查询,构建一种验证价值对齐的‘驾驶员测试’,在广泛的网格环境和一个连续自主驾驶领域中提出和分析启发式和近似价值对齐的验证测试,并证明了存在足够的条件,以通过常数查询复杂性对一组测试环境进行精确定性和近似对齐测试。