ContraDoc:对大型语言模型中文档中的自相矛盾进行理解
本文分析了自相矛盾在大型语言模型中的表现,并提出了评估,检测和缓解的方法。研究发现,自相矛盾经常发生,但我们开发的框架可以准确地检测和减少自相矛盾。
May, 2023
通过探索一种新的矛盾对话处理任务,该研究试图检测和修改会话中的矛盾陈述,以减轻当前语言模型在对话中自相矛盾的问题,并通过开发一个数据集和一个 Red Teaming 框架展示了该任务的有效性,强调了在对话式人工智能中逻辑不一致问题的重要性。
May, 2024
通过对大规模语言模型(LLMs)使用检索增强生成(RAG)来评估知识冲突的处理方法,特别是针对来源相同且具有相等可信度的检索到的段落,研究发现所有模型在提供包含相互矛盾的事实的两个段落时,都难以生成准确反映冲突性质的答案,尤其是对于需要推理的隐含冲突。为了促进未来的研究,通过引入一个自动化模型,该模型使用一个开源强大的语言模型估计 LLM 的性能,实现了 0.8 的 F 分数,并在所有 WikiContradict 实例上评估了来自七个 LLM 的 1500 多个答案。
Jun, 2024
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
本文提出了一种新的间接推理(IR)方法,利用逆否命题和矛盾的逻辑来解决事实推理和数学证明等 IR 任务,以加强大型语言模型(LLMs)的推理能力。与传统 DR 方法相比,我们的 IR 方法通过对话模板触发 LLMs 进行基于矛盾推论的 IR 过程来提高推理准确性,并且与 IR 或 DR 单独使用相比,IR 和 DR 结合的方法表现出更高的效果。
Feb, 2024
通过构建偏好关系的图结构,并使用自我注释来找出偏好排序中的矛盾,我们提出了 ContraSolver 算法,通过遍历图上的边识别可能导致矛盾的边,并优先解决低置信度的偏好。我们的实验证明通过完全无监督的自我对齐可以大大提高不同大型语言模型的性能。通过分析经过自我对齐和未经自我对齐的大型语言模型的偏好图,我们量化了矛盾减少,并表明解决偏好矛盾对于实现更好的对齐性能至关重要。
Jun, 2024
介绍了一种新颖的数据生成方法用于矛盾检测,结合了大型语言模型的生成能力和语言规则,旨在提供一种取得深入语言分析和高效语言模型微调的原型矛盾语料库。
Oct, 2023
通过利用自动生成的负例,自我对比是一种无需依赖人类反馈的大型语言模型对齐方法,仅通过有监督的微调目标,利用语言模型本身生成大量多样化的候选,并根据文本相似性使用预训练的嵌入模型筛选多个负例,实验证明在此设置下,仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况,通过对三个数据集的直接偏好优化实验表明,自我对比可以始终显著优于有监督微调和标准偏好优化训练,当自生成负例的数量增加时,自我对比的性能也在不断提高。
Mar, 2024
我们提出了一个具有争议性的问题数据集的构建方法,通过评估不同的大型语言模型(LLMs)在这个数据集上的表现,揭示了它们如何处理具有争议性的问题以及它们采取的立场,从而为我们提供了对 LLMs 与争议性问题的互动的理解,为改进它们对复杂社会议题的理解和处理铺平了道路。
Oct, 2023
提出了一种新颖的自我检测方法,通过扩展问题的文本表达并收集相应的答案,检测大型语言模型(LLMs)是否会产生虚假回答,证明了该方法在 LLM 效果上的有效性。
Oct, 2023