Nov, 2023

ContraDoc:对大型语言模型中文档中的自相矛盾进行理解

TL;DR该研究介绍了 ContraDoc,这是第一个用于研究长文档中自相矛盾的人工注释数据集,通过分析四种最先进的开源和商业化大型语言模型(GPT3.5、GPT4、PaLM2 和 LLaMAv2)在该数据集上的能力,发现 GPT4 表现最佳,但仍然在需要更多细微差别和上下文的自相矛盾方面不可靠。