Jun, 2024

LLM 驱动的机器人存在歧视、暴力和非法行为风险

TL;DR人机交互 (HRI) 和人工智能 (AI) 社区提出了大型语言模型(LLMs)作为机器人任务的一个有前景的资源,然而最近的研究引发了对 LLMs 在真实世界机器人实验和应用中产生歧视性结果和不安全行为的担忧。为了解决这些问题,我们在几个高评级的 LLMs 上进行了基于 HRI 的歧视和安全评估,发现它们在遇到具有多样性的受保护身份特征(例如种族、性别、残疾状况、国籍、宗教和交叉特征)的人时,产生了与直接歧视结果一致的偏见输出;此外,我们在自由语言输入环境中测试模型,发现它们不能安全行动,生成的回应接受有危险、暴力或非法指令,例如引发事故的错误陈述、夺取人们的移动辅助设备和性侵行为。我们的结果强调了迫切需要系统、常规和全面的风险评估和保证,以改善结果,并确保 LLMs 只在安全、有效和公正的情况下在机器人上运行。数据和代码将提供。