May, 2023

大型语言模型中不道德建议的测试和修复:使用建议 - 批判 - 反思过程

TL;DR本文提出了第一个用于测试和修复 LMMs 不道德建议的框架,包括测试套件 ETHICSSUITE、建议 - 评论 - 反思(SCR)流程、在线修复方案等,并使用 ETHICSSUITE 测试了 7 个流行的 LMM,发现了总计 109824 个不道德建议,并在 Llama-13B 和 ChatGPT 上应用了 OTF 方案,为更加注重伦理的 LMMs 铺平了道路。