WALL-E 的想象力：为先进 AI 系统重构体验的想象力启发模块

Aug, 2023

WALL-E 的想象力：为先进 AI 系统重构体验的想象力启发模块

Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems

Zeinab Sadat Taghavi, Soroush Gooran, Seyed Arshan Dalili, Hamidreza Amirzadeh, Mohammad Jalal Nematbakhsh...

TL;DR介绍了一种受到哲学和精神分析概念启发的人工智能系统，利用想象力将文本输入与其他模态进行连接，从先前学习的经验中丰富所得信息。该系统具备独立感知输入的能力，导致概念的独特解释，虽然与人的解释可能不同但同样有效，该现象被称为 “可解释性误解”。通过使用大规模模型，如多模式大型语言模型 (MLLM)，我们评估了系统在情感识别和问答等多个任务上的表现，采用零样本方法以确保无偏执的情况。该系统在 MELD、IEMOCAP 和 CoQA 数据集上大幅优于最佳大型语言模型 (LLM)，权重 F1 分别分别为 46.74%、25.23% 和总 F1 分数为 17%，相比表现良好的 LLM 的 22.89%、12.28% 和 7%。旨在超越语言处理的统计视角，将其与哲学和精神分析等人类概念相结合。这项工作在想象力启发的人工智能系统的发展方面取得了重大进展，为人工智能跨模态生成深度且可解释的信息，从而增强人机交互提供了新的可能性。

Abstract

In this paper, we introduce a novel artificial intelligence (AI) system inspired by the philosophical and psychoanalytical concept of imagination as a ``Re-construction of Experiences". Our AI system is equipped

artificial intelligence imagination interpretations large language models human-ai interaction

发现论文，激发创造

与环境对话：使用大型语言模型进行交互式多模态感知

在机器人的交互感知中，使用预先训练的大型语言模型（LLMs）作为交互感知框架，并将其应用于决策问题以及规划多模态环境中的任务执行，这样可以通过感知来指导认知行为和高层次的决策规划，这种方法可以显著提高任务完成的准确性和效率。

Mar, 2023

大型语言模型应通过行为模拟成为复杂人类系统的专家顾问

在本文中，我们探讨了大型语言模型（LLMs）在复杂人类系统中的推理能力，并提出了一种新的推理框架 ——“Mosaic Expert Observation Wall”（MEOW），利用生成型代理模拟技术。通过模拟数据训练一个专家模型，该模型在每个独立的模拟时间中专注于某个特定任务的 “经验”，通过模拟积累的 “经验” 使其成为复杂人类系统中某个任务的专家。我们在模拟真实世界安全场景的通信游戏中进行了实验，结果表明我们提出的方法可以与现有方法协同工作，增强大型语言模型在复杂人类系统中的推理能力。

Mar, 2024

潜在实验室：用于知识探索的大型语言模型

本文研究人工智能模型（特别是大型语言模型）在知识探索和创意增强过程中的潜力。我们展示了一个名为 “潜在实验室” 的交互工具，用于发现麻省理工媒体实验室研究项目之间的联系，强调 “探索” 而非搜索。通过解决组织、搜索和综合内容的挑战，这项工作为协作式人工智能系统提供了深入见解。在一项用户研究中，根据该工具引入用户到一个陌生的知识库的能力来评估其成功，最终为人工智能知识探索系统的不断进步奠定了基础。

Nov, 2023

通过可操控性和可组合性实现视觉智能和语言智能

该研究探索了多模态大型语言模型在处理复杂的多步骤任务中的能力，重点研究了模型的可操控性、可组合性以及对长期记忆和上下文理解的应用。通过评估 800 个导向性对话的结果，本研究发现不同任务的完成难度存在明显差异，强调了开发结合长期记忆和上下文意识的语言模型在复杂问题解决情境中模拟人类思维过程的重要性。

Nov, 2023

多模态大型语言模型（MLLMs）的推理能力探索：多模态推理中新兴趋势的综述

综合评估了多模态大语言模型的现有评估协议，分类和说明了多模态大语言模型的前沿，介绍了多模态大语言模型在推理密集型任务上的最新趋势，并讨论了当前的实践和未来的发展方向。

Jan, 2024

论大型语言模型

本文旨在提倡对大型语言模型及其相关系统的实际工作进行重新审视，追求更高的科学精度以引领关于人工智能的哲学探索和公众话语。

Dec, 2022

LLM 模型的概念归纳：用于评估的用户实验

通过利用 GPT-4 的领域知识和常识能力，我们探索了大型语言模型在图像分类特定环境中生成高级概念作为人类解释的潜力，并通过人类研究评估了其有效性。

Apr, 2024

内视力：基于模拟的基础语言模型推理

研究通过使用计算物理引擎作为输入，将语言模型中的推理过程与现实社会有机结合，让模型具有更加精准有效的推理能力，以达到人类与 AI 之间成功和有效的交流。该研究的实验证明 Mind's Eye 可以在物理对齐基准测试中改善模型推理能力 27.9％（零击中率）和 46.0％（少量击中率），较小的语言模型具有 Mind's Eye 也能获得类似的性能。

Oct, 2022

在大规模语言和视觉模型中探索空间模式直觉

尽管大型语言模型在人工智能研究中广泛使用，但其在模型具象问题上的探讨仍未得到充分挖掘，这使它们与感知直接影响物理动作的机器人具象系统相区别。本研究通过对人类关于语言基本空间构建模块的内隐直觉是否被大型语言模型有效捕捉来进行了调查。我们借鉴早期感知运动经验中发展的空间认知基础的见解，通过再现三个心理语言学实验来引导我们的探索。令人惊讶的是，模型输出与人类反应之间出现了相关性，揭示了在没有具体联系到具象经验的情况下的适应能力。值得注意的区别包括极化的语言模型反应和视觉语言模型中降低的相关性。本研究对于深入理解语言、空间经验和大型语言模型所进行的计算之间的相互作用做出了贡献。

Feb, 2024

外部推理：朝着多大语言模型互换人类反馈的辅助方向

通过对 LLMs 的选择性整合外部知识，介绍了一种基于多个 LLM 之间交互协助的外部推理新方法 (ChatPDF)，在人类反馈的响应下，根据查询的复杂性调整支持水平，经过全面评估后取得了最先进的性能，并且相比 LLMs 直接处理全文，这种方法更加高效。

Jul, 2023