- ACL每个答案都重要:用概率测度评估常识
大型语言模型在常识任务上展现了令人印象深刻的性能;然而,这些任务通常作为多项选择题提出,使模型能够利用系统偏差。常识也具有概率性,存在多个正确答案。为此,我们提出了一种新的生成任务 - 常识框架补全(CFC),通过多个开放式生成来评估常识。 - ACLmCSQA: 采用语言模型和人类统一创建策略的多语言常识推理数据集
通过语言模型的构建过程,使用 LM 生成问题 / 答案、改进答案和验证 QA,然后减少人工验证的工作量,我们提出了 Multilingual CommonsenseQA(mCSQA),这是一个用于评估多语言 LM 的跨语言语言传递能力的基准 - 人工智能通用化(AGI-Native)无线系统:逾越 6G 之旅
提出了 AI 本地化无线系统的概念,通过赋予其必要的常识,向人工通用智能系统转化。通过感知模块和类比推理等认知能力,构建了系统的认知模型,并探讨了其在下一代 DT、认知化人工身影和大脑级元宇宙体验等应用方面的潜力。
- AILS-NTUA 在 SemEval-2024 任务 9 中的表现:解决脑筋急转弯:基于 Transformer 的侧面思维谜题模型
研究人员通过精调不同规模的预训练基于转换器的语言模型,并对其得分和响应进行分析,以帮助未来的研究人员有效理解和利用这些模型。他们的顶级方法在两个子任务中取得了竞争地位,在评估阶段,他们的最佳提交在句子拼图和词语拼图中分别获得了 81.7% - 自动驾驶的语言代理
我们提出了一种从普通流程转变的方法,即通过引入大型语言模型作为认知代理,将人类智能融入自动驾驶系统,实现更加人性化的自动驾驶。我们的方法通过函数调用访问一个多功能工具库、具有常识和经验知识的认知记忆以进行决策制定,并且具备由思维推理、任务规 - 机器学习模型是否具备常识学习能力?
本文提出了一种框架,用于从模型的训练数据中推导出共识规则,进而量化模型学习共识的程度。通过使用基于逻辑的方法和统计推断,可以无需监督学习的方式推导出分布在数据中的共识规则,并通过测试时间适应来减少共识规则违例和产生更加连贯的预测结果。在三个 - 自动常识推理基准:一项调查
论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchma - Witscript 2:一种无需文字游戏即可生成即兴笑话的系统
Witscript 2 是基于大型语言模型生成对话式笑话的系统,并且将重点放在共识而非言语游戏上,通过人类评估者的测试,其产生的笑话的有效性为 46%,人类作出的为 70%,这表明 Witscript 2 是使聊天机器人具有人类幽默感的一个 - EMNLPDiffG-RL: 利用状态与常识差异的强化学习
通过构建差异图,使用一种交互式对象与专用图形编码器组织环境状态和常识的方式,文中提出一种新型代理 DiffG-RL,旨在从源中提取适当数量的常识信息,以支持图形的构建,用于解决既需考虑文本情境和常识,又需要进行决策的文本游戏任务,并通过实验 - 开放世界中的机器人任务规划和情境处理
介绍了一种新的算法 (COWP),用于基于任务和机器人技能从语言模型中提取常识,实现在开放世界中完成任务规划和情境处理,实验结果表明其在服务任务成功率方面显著优于现有文献中的竞争基线算法。
- 大规模生成常识问题解答阐释模型
在常识问题回答的情境下,我们使用更小的语言模型通过更新 elaboration generator 和 answer predictor 两种语言模型来相互影响,最终取得了比同样规模的其他模型更好的性能,且在四个常识问题回答基准测试中,差距 - DALL-E 2 的初步分析
DALL-E 2 生成与输入文本相对应的原创合成图像,并进行了 14 项测试,以评估其常识,推理和理解复杂文本的能力。
- AAAI走向新常识科学
本篇论文讨论了人工智能中普遍存在的缺乏常识与人类智能的巨大差距,提出了从更广泛的角度考虑人工智能中的常识,处理完整的认知系统,并倡导对人工智能领域的常识知识进行全新的科学探索。
- 詹米尼・克蟲會怎樣做?朝向具有道德行為的代理人
通过 Jiminy Cricket 这个环境套件,我们使用人类的常识道德知识,创建了一个初级人工良心来评估和引导人工智能,从而实现了在不损失性能的情况下引导人工智能做出道德行为。
- AAAICEM: 基于常识的共情回应生成
本文提出了一种新的基于常识的共情反应生成方法,除了识别用户情感外,还考虑了对用户情况的认知理解,实验结果表明本方法在自动和人工评估中均优于基线模型,能够生成更具信息和共情性的响应。
- ACL使用一致的概念抽象建立事件可信度模型
本文研究证明对自然语言的理解需要常识,其中之一是辨别事件的可信度。这篇论文探讨了基于 Transformer 的可信度模型在词汇等级概念类别方面的不一致性,并提出了强制模型一致性的后续方法,以提高与人类可信度判断的相关性。
- 婴儿直觉基准(BIB):辨别他人的目标、偏好和行为
机器学习系统如何理解和推断环境中其他代理的目标、偏好和行动,是实现人类常识的关键。虽然基于深度学习的代理推理模型日益成熟,但在类似人类婴儿的推理上,仍有待突破。Baby Intuitions Benchmark (BIB) 作为发展性认知科 - 利用常识知识改进零样本学习基线
本研究旨在解决 Zero shot learning 的挑战,利用 ConceptNet 的通识知识图谱,通过图卷积网络自编码器生成类标签的通识嵌入,结合 HA 和 DWE 的管道,可提高视觉和语义嵌入之间的关联性,进而在三个基准数据集上表 - 超越深度:人类常识认知人工智能的范式转换
本篇论文呼吁 AI 的下一代要拥抱类人的 “黑暗” 的常识,以解决新的任务,提出 “少数据用于大任务” 的范式,FPICU 是认知 AI 的五个核心领域,是类人智能的 “暗物质”
- ACL提出正确问题:从个人叙述中推断征求建议的意图
该研究介绍了一个新的任务,使用 NLP 系统自动推断个人叙述中寻求建议的目的,构建了一个包含 20,000 多个人体验的数据集,并利用人类注释确定该任务需要应用人类的常识和社交智慧。