Jun, 2024

LLM-ARC: 提升 LLM 模型与自动推理评论家

TL;DRLLM-ARC 是一个神经符号框架,通过将大语言模型(LLMs)与自动推理评论家(ARC)相结合,提升其逻辑推理能力。它采用了演员 - 评论家方法,其中 LLM 演员生成声明性逻辑程序和语义正确性测试,而自动推理评论家评估代码,运行测试,并提供关于测试失败的反馈以进行迭代改进。在 FOLIO 基准测试中,利用 ASP 实现的 LLM-ARC 实现了 88.32% 的新的最高准确性,测试了复杂的逻辑推理能力。我们的实验证明了 LLM-ARC 相对于仅使用 LLM 的基准线的显著改进,突出了逻辑测试生成和迭代自我改进的重要性。我们通过完全自动化的自我监督训练循环达到了最佳结果,其中演员在端到端对话追踪上接受评论家的反馈训练。我们讨论了潜在的改进,并提供了详细的错误分析,展示了 LLM-ARC 在复杂自然语言推理任务中的鲁棒性和有效性。