Feb, 2022

从数据中学习价值对齐机制的 HCMD-zero

TL;DRHCMD-zero 是一种学习性机制构建方法,通过与自身的复制品竞争来获取参与者的反馈,并在此基础上调整机制参数,从而实现更加被参与者青睐的目标,无需事先对参与者行为、可用知识、机制目的等进行强假设。研究发现,HCMD-zero 在资源分配于竞争等场景下,与强对比方法相比具有更好的表现和可解释性。