- Tumbug:一种图示式通用知识表示方法
人工通用智能(AGI)的关键被普遍认为是常识推理(CSR),或者更精确地说是发现对 CSR 特别适用的知识表示方法(KRM),作者开发了一种定制的 CSR 知识表示方法 Tumbug,这种新颖的 Tumbug 知识表示方法被设计成具有图形性 - AAAICORECODE: 一个带有基准任务的常识注释对话数据集,用于中文大型语言模型
CORECODE 是一个包含丰富常识知识的中文大型语言模型的数据集,用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了 76,787 个常识知识注释,并通过对话级推理和检测任务验证模型在该数据集上的能力,结果表明现有的 - 非常规推理:关于非常规情况的归纳推理
通过研究不寻常、意外和不太可能的情境,我们探索了非常识性推理的能力,发布了一个名为 UNcommonsense 的英语语料库,并比较人类解释者和最佳大型语言模型的表现差异,最终尝试了几种在线模仿学习算法来训练开放和易用的语言模型,在人工评估 - EMNLPCRoW: 基于真实世界任务的常识推理基准
近期在自然语言处理 (NLP) 常识推理研究领域,已经取得了大量新的数据集和基准(benchmark)。然而,这些数据集中的大部分在人工场景中构建常识推理挑战,不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW,这是一个 - 仿真人脑思考:一种具有快速和慢速推理以及过滤规则的神经符号链接预测模型
FaSt-FLiP 是一种新颖的神经逻辑模型,旨在结合逻辑和神经模型,以提高链接预测的性能,并生成更可靠的解释。
- EMNLP对话链条思路精炼:注重常识的对话代理
提出了一种知识蒸馏框架,利用大型语言模型作为不可靠的教师,并通过对齐过滤器选择性地提炼一致和有帮助的合理性,以实现对话语境中的多跳推理。进一步提出了 DOCTOR,一种可靠的 DialOgue Chain-of-ThOught Reason - 推动 Transformer 在常识推理中的能力
介绍了如何利用当前的机器学习方法,通过知识迁移、模型集成和引入配对对比目标等方法,改进通用预训练语言模型在常识推理任务中,取得超过 15%的配对准确度和超过 8.7%的标准准确度的绝对增益。
- EMNLP晶体:强化自反馈的反观型推理者
提出了一种新的内省型常识推理模型 Crystal,通过强化学习来调整模型的知识内省和基于知识的推理模式,使模型的性能和透明度明显提高。
- ChatGPT-4 在 RCC-8 中的定性空间推理能力评估
定性空间推理是常识推理领域的一个广泛研究领域,应用范围从地理信息系统到机器人和计算机视觉。本文研究了某个大型语言模型在经典的定性空间推理任务上的能力,并以 RCC-8 为例进行研究。
- 大型语言模型也是优秀的原型常识推理器
通过优化任务提示和生成多样化的链式推理和知识,该研究在 ProtoQA 数据集上实现了新的高分,并提供了对大型语言模型的解释,为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。
- SYNDICOM: 通过错误注入与自然语言反馈提升对话常识
通过引入 SYNDICOM 方法来提高对话回复生成中的常识推理,该方法包括基于知识图谱创建的常识对话数据集和预测自然语言反馈的模型,以及在预测的自然语言反馈、无效回复和对话的条件下训练响应生成模型。SYNDICOM 在多项任务上相对于 Ch - 高效自动风格下的心理形容词识别
最近几年,常识推理在学术界引起越来越多的关注。我们提出了一个新的词汇推理任务,即心理和物理分类(MPC),用于处理推理图中的常识推理。我们通过微调 BERT 模型并采用主动学习算法来减少所需的注释资源。使用 ENTROPY 策略的模型达到了 - 从词模型到世界模型:从自然语言翻译到思维的概率语言
本文提出了一种基于理性意义构建的计算框架来实现语言驱动的思维,将语言和概率性推理的概率语言模型结合以构建适应上下文的符号推理模型,同时开发了统一的通用推理接口以实现全面的常识推理。
- SituatedGen: 融合地理和时间背景的生成常识推理
研究了通识常识推理中的文本生成任务,提出了一种面向具体地理和时间背景下的对比句子生成的数据集及评价模型,并实验证明现有最先进的语言生成模型在推理的通识常识上仍然远远落后于人类表现。
- 使用链式知识提示提升语言模型推理能力
引入了一种新的 Chain-of-Knowledge (CoK) 提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进 Commonsense、事实、符号和算术推理任务的性能,并引入 F^2-Verific - 探究姓氏对语言模型的因果效应:以社交常识推理为例
本研究旨在检验语言模型中名字对常识推理能力的影响,并提出了可控性实验框架和解释分析来证明了首次提出的假设,即一般的常识推理与他们所用的人名无关,结果显示人名的频次对模型的预测产生了不同的影响,并建议在数据集配置阶段增加更多多样性的人名以确保 - ACL基于互斥解释的引入式常识推理
本文提出一种利用后验正则化来促进建模向区分流畅解释和可信解释的逻辑推断模型,以实现无样本学习的非监督归纳通用推理的方法,并在多个推理数据集上进行实验,结果表明此方法在零样本学习上表现出色,优于直接应用预训练语言模型和其他知识增强方法。
- 利用弱监督进行预处理的视觉语言推理
本文提出了预先条件的视觉语言推理与理性化(PVLIR)的任务,研究表明 SOTA 的 VLM 模型无法提取出这种先决条件,提出了三种策略来提取弱监督信号,并开发了经过人工验证的测试集进行评估。
- 通过辩论深入探究大型语言模型的内部一致性
在人工智能的领域中,大型语言模型(LLMs)需求渐趋增长。本研究通过命题竞辩框架来探讨多个 LLMs 之间的持续性以及一致性问题,确立了公正比赛,失调比赛和圆桌比赛的三个阶段,并在多个常识推理数据集上进行了广泛的实验,从而提出了令人信服的解 - ACLACCENT:面向开放域对话系统的自动事件常识评估度量
本文介绍了一种基于事件通识知识库的通识推理评估度量 ACCENT,通过提取对话中的事件关系元组,以知识库为基础来评估响应是否与常识相符,并通过构建公共数据集进行了评估,并证明 ACCENT 是事件常识评估的有效度量方法。