深度神经网络是否比二年级学生更聪明?
本文介绍了我们在 SMART-101 挑战中解决多模态算法推理任务的解决方案。我们使用分而治之的方法,在数据层面上将所有问题分为八类,并利用 llama-2-chat 模型以零射方式直接生成每个问题的类别。此外,我们在 icon45 数据集上训练了一个 yolov7 模型用于目标检测,并将其与 OCR 方法结合起来识别和定位图像中的对象和文本。在模型层面上,我们使用 BLIP-2 模型并为图像编码器 VIT-G 添加了八个适配器,以自适应地提取不同问题类型的视觉特征。我们将预先构建的问题模板作为输入,使用 flan-t5-xxl 解码器生成答案。在拼图分割配置下,我们在验证集上获得了 26.5 的准确率得分,并在私有测试集上获得了 24.30 的准确率得分。
Oct, 2023
人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力,创造出可以从一小组示例中学习新概念的计算机系统,在人类轻松掌握的情境下进行。然而,尽管特定神经网络能够解决一系列问题,但对于训练数据之外的广泛泛化,仍然是个难题。本文提出了几种新颖的解决方法,用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务,并且依赖于复杂的手工规则,而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展,并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理,并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言,使 DreamCoder 能够解决 ARC 任务,并提出了一种新的识别模型,显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案,使大语言模型 (LLMs) 能够解决 ARC 任务,并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题,并为其他方法提供了一种有趣的补充方式。我们进行了集成分析,将模型结合起来以取得比任何单独系统更好的结果。最后,我们发布了 arckit Python 库,使未来对 ARC 的研究更加容易。
Feb, 2024
本研究旨在探索神经网络的抽象推理能力,提出了一个基于人类智商测试设计的数据集挑战,并展示了一种新的体系结构,该结构旨在鼓励推理并可显着提高神经网络的推理能力。通过改变测试和训练数据之间的方式,我们发现该模型在某些形式的泛化上非常擅长,但在其他方面明显较弱。此外,当该模型通过训练来预测答案的符号解释时,其泛化能力会显著提高。
Jul, 2018
介绍了一个名为 PuzzLing Machines 的小数据学习挑战,该挑战包含来自语言奥林匹克的石碑难题,展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战,这启发了新的 NLP 发展方向 -- 人类般思考的理解。
Apr, 2020
本文研究深度神经网络在 “Look and Say” 题目上的表现并发现尽管在大规模数据(200 万数据)训练时准确度很高,但它们并没有展现出任何关于问题更深层次理解的迹象,这也从认知科学角度说明我们需要更好的抽象数学模型。
Sep, 2021
本文介绍了一种采用属性语法表示情景模型的代数故事问题求解器(SMART),它通过信息提取模块从问题文本中提取节点、属性和关系,然后根据预定义的属性语法生成解析图,并提出了一种迭代学习策略,以进一步提高模型的性能,并通过严格研究此任务来改进模型在此任务上的性能。我们的模型在较复杂的问题上也表现出了优异的泛化能力。
Dec, 2020
在本论文中,介绍了 HYU MLLAB KT 团队解决 SMART-101 CVPR 2024 Challenge:多模态算法推理任务。为了解决这个问题,我们提出了两个主要思路:利用大规模语言模型 (LLM) 的推理能力,将给定的视觉线索 (图像) 落实到文本模态中,并生成描述图像上下文的详细文本描述,然后将这些描述作为 LLM 的输入;为了确保不会忽视包含各种几何视觉模式的拼图图像的特性,我们利用目标检测算法来捕捉这些几何模式的视觉特征,并将这些信息作为 LLM 的输入。在拼图分割配置下,在测试集上实现了 29.5 的选项选择准确率 (Oacc),在挑战集上实现了 27.1 的加权选项选择准确率 (WOSA)。
Jun, 2024
本文回顾了近年来关于深度学习在数学领域的研究,认为当前即使是最先进的深度学习模型在面对简单的数学和算术任务时也表现出较大局限性。
Mar, 2023
通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力,我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析,结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强,但缺乏解答针对年幼儿童设计的问题的基础知识,而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。
Jun, 2024
这篇论文介绍了一项新颖的任务,即多模式拼图解决,其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集,旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明,GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限,对于大量拼图的多选题回答设置,它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。
Mar, 2024