利用大型语言模型和语言规则生成矛盾检测的原型
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
本文提出了一种新的间接推理(IR)方法,利用逆否命题和矛盾的逻辑来解决事实推理和数学证明等 IR 任务,以加强大型语言模型(LLMs)的推理能力。与传统 DR 方法相比,我们的 IR 方法通过对话模板触发 LLMs 进行基于矛盾推论的 IR 过程来提高推理准确性,并且与 IR 或 DR 单独使用相比,IR 和 DR 结合的方法表现出更高的效果。
Feb, 2024
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
本文分析了自相矛盾在大型语言模型中的表现,并提出了评估,检测和缓解的方法。研究发现,自相矛盾经常发生,但我们开发的框架可以准确地检测和减少自相矛盾。
May, 2023
通过探索一种新的矛盾对话处理任务,该研究试图检测和修改会话中的矛盾陈述,以减轻当前语言模型在对话中自相矛盾的问题,并通过开发一个数据集和一个 Red Teaming 框架展示了该任务的有效性,强调了在对话式人工智能中逻辑不一致问题的重要性。
May, 2024
通过对模型生成的矛盾回应进行广泛分析,我们构建了一个大型数据集,并获取了这些模型生成的矛盾的特征,最后展示了该数据集如何大幅提升数据驱动的矛盾抑制方法的性能。
Mar, 2024
该研究介绍了 ContraDoc,这是第一个用于研究长文档中自相矛盾的人工注释数据集,通过分析四种最先进的开源和商业化大型语言模型(GPT3.5、GPT4、PaLM2 和 LLaMAv2)在该数据集上的能力,发现 GPT4 表现最佳,但仍然在需要更多细微差别和上下文的自相矛盾方面不可靠。
Nov, 2023
本篇论文研究了自然语言理解模型在抓住普遍会话中的一致性方面的应用。为此,作者提出了 DialoguE COntradiction DEtection 任务并创建了一个包含人类与机器人相互矛盾的对话的新型会话数据集。作者进一步比较了基于预训练 Transformer 模型进行矛盾检测的结构化语言表述方法与典型的非结构化方法,并发现结构化语言表述方法在分析与分布式会话中的表现更为健壮且更具可转移性。作者提供了证据表明,他们的最佳矛盾检测模型与人类判断相一致,并可自动评估与提高最先进的生成式聊天机器人的一致性。
Dec, 2020
本文研究了 GPT-3 等较大型语言模型在否定对比问题上的表现。我们提出了一种方法来改善模型在否定对比场景下的表现,该方法胜过了来自 GPT-3 的少样本生成,突出了研究大型语言模型在否定对比问题中响应的重要性。
Jul, 2023