May, 2023

关于 LLMs 的隐含风险评估:关于鲁棒性,一致性和可信度的实证研究

TL;DR本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。