TL;DR我们提出了一种新的短期 - 长期政策评估方法,通过在 HIV 治疗、肾脏透析和电池充电等领域的模拟器上对比实验,结果表明我们的方法在性能上显著优于之前的成果,还演示了该方法在人工智能安全方面的应用。
Abstract
From incorporating llms in education, to identifying new drugs and improving
ways to charge batteries, innovators constantly try new strategies in search of
better long-term outcomes for students, patients and co