抽象、推理和深度学习:一个 “看和说” 序列的研究
本文提出了一种基于深度神经网络(DNN)的序列学习方法,使用多层长短时记忆(LSTM)解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果,同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。
Sep, 2014
研究了一个自然语言处理人工系统中句子的表征,分析表明存在一些启发式策略,通过训练分布,这些系统可以学习抽象规则并将其推广到新的环境中,但也存在一些推广行为上的缺陷。
Sep, 2019
本文介绍了一种利用关系抽象概念来帮助大型语言模型在数学推理方面提高的新方法,并发现将这种序列用作提示可使模型具有更强的推理能力,特别是在需要执行多步任务的情况下。
Oct, 2022
本文旨在研究神经网络的广泛性,提出 SMART 算法推理任务和关联的 SMART-101 数据集以评估神经网络在 6-8 岁儿童视觉语言谜题领域中的抽象、推理和概括能力,结果表明,神经网络在特定领域的表现合理,但不具有良好的广泛性,ChatGPT 虽然具有令人信服的推理能力,但答案常常是错误的。
Dec, 2022
介绍了一个名为 PuzzLing Machines 的小数据学习挑战,该挑战包含来自语言奥林匹克的石碑难题,展示了目前包括最先进的深度神经网络模型在内的简单的统计算法无法完成这一挑战,这启发了新的 NLP 发展方向 -- 人类般思考的理解。
Apr, 2020
本研究试图从理论的角度解释神经网络的计算类型,通过将它们与自动机相关联,并使用定义 “实时网络有界精度接受语言” 的方法来解释网络内存度量,对可被各种循环网络、注意力和卷积网络接受的语言类别进行了表征。研究发现 LSTM 功能类似于计数器机,并将卷积网络与子正则层次结构相关联。这些理论洞察力有助于解释神经计算,以及神经网络与自然语言语法之间的关系。
Jun, 2019
本论文旨在通过 extit {序列一致性评估}(SCE) 构建检测任务,研究使用深度学习模型解决此类任务的能力,结果表明,未经训练的深度学习模型仍能相对良好地解决这一类任务,这为构建机器流体智能提供了启示。
May, 2022
本文追溯了神经网络在自然语言理解任务中的应用历史,指出了自然语言的特性对神经网络架构的发展的关键贡献。文章着重强调了变量绑定及其在基于注意力模型中的实例化的重要性,并认为 Transformer 不是序列模型而是一种诱导结构模型。这一视角导致了对深度学习架构在自然语言理解方面面临的挑战的预测。
May, 2020
人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力,创造出可以从一小组示例中学习新概念的计算机系统,在人类轻松掌握的情境下进行。然而,尽管特定神经网络能够解决一系列问题,但对于训练数据之外的广泛泛化,仍然是个难题。本文提出了几种新颖的解决方法,用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务,并且依赖于复杂的手工规则,而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展,并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理,并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言,使 DreamCoder 能够解决 ARC 任务,并提出了一种新的识别模型,显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案,使大语言模型 (LLMs) 能够解决 ARC 任务,并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题,并为其他方法提供了一种有趣的补充方式。我们进行了集成分析,将模型结合起来以取得比任何单独系统更好的结果。最后,我们发布了 arckit Python 库,使未来对 ARC 的研究更加容易。
Feb, 2024
该研究针对机器学习和认知神经科学中的中心课题提出了一种形式化的神经活动模型,该模型可以通过神经元集合的创建和操作实现某些简单的认知操作,并具有较强的泛化、鲁棒性和快速性,还可以捕捉时间和空间序列,实现通用计算。
Jun, 2023