ACLDec, 2023

大规模语言模型的红队攻防:解决数学任务中的幻觉问题

TL;DR评估不同提示技术对解答质量的影响,通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现,尽管结构化推理和提供解题示例可以减缓解答质量的恶化,但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳,即使在红组合作的情况下。