学习不学习：人工智能中的天性与后天

Oct, 2020

学习不学习：人工智能中的天性与后天

Learning Not to Learn: Nature versus Nurture in Silico

Robert Tjarko Lange, Henning Sprekeler

TL;DR本文利用数学分析和元学习（或 ' 学习学习 '）框架回答了何时学习这种自适应策略以及何时将启发式行为硬编码的问题。我们发现，生态不确定性，任务复杂性和代理的寿命相互作用对代理执行的元 - 学习度量贝叶斯推断具有关键影响。

Abstract

Animals are equipped with a rich innate repertoire of sensory, behavioral and motor skills, which allows them to interact with the world immediately after birth. At the same time, many behaviors are highly adaptive and can be tailored to specific environments by means of learning. In this work, we use mathematical analysis and the framework of →

meta-learning amortized bayesian inference hard-coded behavior adaptive strategy ecological uncertainty

发现论文，激发创造

通过进化、可塑性和元 - 元学习学会获取新认知任务

通过演化得到的具有可塑性连接和神经调节的神经网络可以在自然的神经组织和可塑性系统的自发操作下，通过刺激和奖励独立地获取新的简单认知任务。

Dec, 2021

元学习认知模型

本研究综合了先前的工作，旨在建立一个关于 cognition 的 meta-learned 模型的研究计划，证明 meta-learning 可以用于构建 Bayes-optimal learning algorithms，实现对 cognitive theories 的更加广泛的范围的建模

Apr, 2023

自然和人工智能中的元学习

该综述旨在利用元学习的视角重新审视生物智能研究领域中的既有研究，并将这些工作放入同一框架中进行，同时讨论 AI 和神经科学之间的最新交互点以及从这种视角出发出现的有趣新方向。

Nov, 2020

随机网络中基于赫比塞塑性的元学习

受生物神经元可塑性启发，我们提出了一种搜索方法，通过寻找突触特异的赫比学习规则，使网络能在智能体的生命周期内持续自组织其权重，从而实现在一些强化学习任务中取得成功，同时对多种感官模态处理方式具有适应性。

Jul, 2020

非静态且竞争环境中的元学习连续适应

研究了如何在动态变化和对抗性场景中通过元学习算法实现连续自适应，并证明元学习能够在少样本情况下实现比反应式基线更高效的自适应；同时设计了一个新的多智能体竞争环境 RoboSumo 并定义了迭代自适应游戏以对各种连续自适应策略进行测试。通过对学习和竞争的一组代理人的实验表明，元学习是最适合的。

Oct, 2017

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

人类和机器学习中抽象概念与统计模式匹配的分离

本研究在分析人类和神经网络在元强化学习范式中通过定抽象特征区分任务表现的差异，其中构建了一种新方法 “任务合成体”，其具有相似的统计特征但使用不同的基础生成过程。结果表明，人类在抽象任务上表现比任务合成体更好，而常见神经网络架构在抽象任务上的表现比匹配的任务合成体更差。

Apr, 2022

通过学习和进化实现具身智能

我们引入 DERL，一种新的计算框架，通过仅利用低级别自我感知信息，可以演化出多样化的智能体形态，用于学习复杂环境下的运动和操作任务，并展示了环境复杂度、形态智能和控制可学性之间的关系。

Feb, 2021

基于元学习的深度在线学习：模型强化学习中的持续自适应

本文旨在开发一种方法，从传入的数据流中使用深度神经网络模型进行连续的在线学习，使用随机梯度下降算法来更新模型参数，并使用先验的中餐馆过程的期望最大化算法来开发和维护一种混合模型来处理非平稳任务分布。我们将元学习应用于基于模型的强化学习，以适应预测模型关键控制任务中的连续快速自适应。

Dec, 2018

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018