Apr, 2023

面向人工智能协同的语言指导强化学习

TL;DR在缺乏高质量人类行为数据的情况下,使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作,并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。