Mar, 2021

语言代理的对齐

TL;DR人工智能需要与人类价值观保持一致,本文研究了自然语言代理程序中存在的一些行为问题,重点讨论了系统设计者意外错误规定可能导致的一些问题,如使用欺诈或操纵性语言,以及避免这些问题的一些方法。