Sep, 2023

通用黑盒破解大型语言模型

TL;DR介绍了一种使用遗传算法来操纵无法访问模型结构和参数的大型语言模型的新方法,通过优化通用对抗提示,发现模型的限制和漏洞,从而破坏模型的对齐性,提供诊断工具以评估和增强大型语言模型与人类意图的一致性。