将认知任务整合进针对大型模型的人工通用智能测试

Feb, 2024

将认知任务整合进针对大型模型的人工通用智能测试

Integration of cognitive tasks into artificial general intelligence test for large models

Youzhi Qu, Chen Wei, Penghui Du, Wenxin Che, Chi Zhang...

TL;DR大型模型的性能评估是保证其能力和应用安全性的必要步骤，而当前的模型评估缺乏一个统一的框架来评估大型模型的多维智能。本文提出了一个全面的人工智能测试框架，包括认知科学和自然语言处理，旨在评估大型模型的智能水平，并通过一系列认知测试来指导其在不同智能维度上的改进和加速其融入人类社会的过程。

Abstract

During the evolution of large models, performance evaluation is necessarily performed on the intermediate models to assess their capabilities, and on the well-trained model to ensure safety before practical appli

performance evaluation large models artificial general intelligence cognitive tests multidimensional intelligence

发现论文，激发创造

通过多模态基础模型实现人工通用智能

提出自我监督学习方法，用弱语义相关数据从互联网爬取数据进行预训练，快速适应不同下游任务的基础模型，该模型具有良好的想象能力，实现了从弱人工智能到强人工智能的跨越。

Oct, 2021

通过游戏来衡量智力

作者讨论了如何测试普遍人工智能的智能程度，并提出了用游戏描述语言中游戏空间的抽样来扩展通用智能的概念以处理有限时间的中心思想。

Sep, 2011

大型语言模型在人工智能通用智能方面的缺失要素：脑中的容器

我们首先综述了对大型语言模型（LLMs）的现有评估，包括标准化测试和面向能力的基准测试。然后，我们明确了当前评估方法存在的几个问题，倾向于夸大 LLMs 的能力。我们进一步阐述了人工通用智能应该超越 LLMs 能力的几个特征。我们提出了通用智能代理的四个特征：1）能够执行无限的任务；2）能够在特定环境中生成新的任务；3）基于支撑任务生成的价值体系进行操作；4）拥有反映现实的世界模型，影响其与世界的交互。在这一观点基础上，我们强调了人工通用智能中缺失的部分，即认知与行动的统一。我们认为与现实世界中的对象进行积极互动可以提供更强大的形成概念表示的信号。此外，知识获取不仅依赖于被动输入，还需要反复尝试和错误。最后，我们概述了人工通用智能领域未来研究的有希望的方向。

Jul, 2023

医学成像的人工通用智能

本篇综述回顾了人工通用智能模型在医疗保健中的潜在应用，重点关注了基于大型自然语言模型、大型视觉模型和大型多模态模型的基础，强调了整合临床专业知识、领域知识和多模态能力到人工通用智能模型中的重要性，并阐述了指导医疗保健人工通用智能模型开发和部署的关键路线图，提供了有关在医疗领域部署大规模人工通用智能模型所面临的潜在挑战和风险的关键观点。该综述旨在为人工通用智能在医学影像、医疗保健及其他领域的未来可能应用提供启示。

Jun, 2023

人工通用智能（AGI）在教育中的应用

这篇论文综述了人工通用智能在教育领域的概念、能力、以及可能性，包括设定教育目标、设计教学法、课程以及评估。此外，也讨论了 AGI 在教育中所面临的各种伦理问题，以及人工通用智能如何影响人类教育工作者。该领域的进展需要教育工作者和 AI 工程师之间的跨学科合作。

Apr, 2023

CERN 用于 AGI：自主模拟为基础的人工智能测试和对齐的理论框架

本研究探讨了多学科方法在测试和调整人工通用智能（AGI）和 LLMs 方面的潜力。通过在虚拟现实框架中采用基于模拟的多智能体系统，模拟真实世界环境中的复杂社会结构和相互作用，通过应用社会学、社会心理学、计算机科学、物理学、生物学和经济学等领域的各种理论，展示了实现更具人类对齐和社会责任的 AGI 的可能性。该研究旨在为 AGI 的开发和改进做出贡献，强调社会、伦理和理论维度的整合以供未来研究参考。

Dec, 2023

人工智能水平：在通往人工智能通用水平的道路上实现进展

我们提出了一个人工通用智能（AGI）模型及其前身的能力和行为分类框架，该框架引入了 AGI 性能、广泛性和自治程度的级别。希望这个框架类似于自动驾驶的级别，通过提供一个共同的语言来比较模型、评估风险并在 AGI 的道路上衡量进展。我们分析了现有的 AGI 定义，提炼出了一个有用的本体论所应具备的六个原则。这些原则包括关注能力而非机制；分别评估广泛性和性能；以及定义沿着 AGI 路径的阶段，而不是专注于终点。基于这些原则，我们提出了基于能力的 “AGI 级别”，并思考当前系统如何符合这个本体论。我们讨论了未来基准的挑战性要求，以便对这些级别的 AGI 模型的行为和能力进行量化。最后，我们讨论了这些 AGI 级别与自治和风险等部署考虑因素的相互作用，并强调了在负责任和安全地部署高度能力的 AI 系统时，谨慎选择人机交互范例的重要性。

Nov, 2023

我们离 AGI 还有多远

人工智能的发展深刻影响了人类社会，并在多个领域取得了重大进展。然而，对人工智能的不断需求突显了其现有能力的局限性，推动了向人工通用智能（AGI）的发展。AGI 以其与人类智能相当的效率和有效性，具备执行多样化现实任务的能力，代表着人工智能演进的重要里程碑。本文通过广泛的调查、讨论和原创观点，深入探讨了接近 AGI 的关键问题及其实现所需的策略，不同于现有的综述文献。我们首先阐述了 AGI 的必要能力框架，整合了内部、界面和系统维度。由于实现 AGI 需要更先进的能力和严格的约束条件，我们进一步讨论了必要的 AGI 对齐技术，以协调这些因素。值得注意的是，我们强调通过首先定义 AGI 进展的关键级别来负责任地对待 AGI，然后评估现状的评价框架，并最终提出了达到 AGI 巅峰的路线图。此外，为了提供对 AI 整合的普遍影响的切实见解，我们概述了在多个领域实现 AGI 所面临的挑战和可能的途径。总之，作为对 AGI 当前状态和未来轨迹的先驱性探索，本文旨在促进研究人员和实践者之间的集体理解，并引发更广泛的公众讨论。

May, 2024

M3GIA: 一项以认知为灵感的多语言和多模态通用智能能力基准

我们引入了首个认知驱动的多语言和多模态基准 M3GIA 来评估多模态大型语言模型的通用智能能力，并提出了基于 Cattell-Horn-Carrol (CHC) 智能模型的五个关键认知因素和评估方法。我们的研究表明，英语领域中最先进的多模态大型语言模型已经接近人类智能的下限，但在其他五种语言中存在明显差异。

Jun, 2024

变革与传统：人工通用智能（AGI）用于艺术与人文

最近人工智能（特别是大型语言模型和创意图像生成系统）在艺术与人文学科等广泛领域展示了令人印象深刻的能力，然而，人工智能的快速发展也引发了对其在这些文化意义重大的领域中负责任的部署的重要问题。本文全面分析了与艺术和人文学科有关的文本、图形、音频和视频的人工智能的应用和意义。我们调查了最前沿的系统及其在从诗歌到历史、市场营销到电影以及交流到古典艺术等领域的使用情况。我们概述了与人工智能系统中的真实性、有害性、偏见和公共安全相关的重要问题，并提出了减轻策略。本文主张多利益相关者的合作，以确保人工智能在促进创造力、知识和文化价值的同时，不损害真理或人的尊严。我们及时的贡献总结了一个快速发展的领域，突显了有希望的方向，同时倡导以人的繁荣为中心的负责任进展。本分析为进一步研究如何使人工智能的技术能力与永恒的社会美好相契合奠定了基础。

Oct, 2023