无需人类知识解决魔方

NIPSMay, 2018

Solving the Rubik's Cube Without Human Knowledge

Stephen McAleer, Forest Agostinelli, Alexander Shmakov, Pierre Baldi

TL;DR自学习算法 Autodidactic Iteration 可以在没有人类协助的情况下解决魔方问题，并且其解决问题的长度小于或等于采用人类领域知识的算法。

Abstract

A generally intelligent agent must be able to teach itself how to solve problems in complex domains with minimal human supervision. Recently, deep reinforcement learning algorithms combined with self-play have ac

reinforcement learning autodidactic iteration rubik's cube complex domains self-teaching

发现论文，激发创造

使用机械手解决魔方

本文阐述了通过自动域随机化（ADR）算法和机器学习机器人平台的组合，可以使仅在模拟中训练的模型用于解决一个真实机器人的无前例复杂操纵问题，ADR 使得策略控制和视觉状态估计器的 sim2real 迁移显著改善，ADR 与客制化机器学习机器人平台的组合，使其可以使用一个人形机器人手来解决魔方方块的控制和状态估计问题。

Oct, 2019

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022

使用领域独立规划器和标准表示解决鲁比克魔方

这篇论文介绍了在流行的 PDDL 语言中第一个魔方（Rubik's Cube）表示法，这使得该领域对于 PDDL 规划者、竞赛和知识工程工具更具可访问性和人类可读性，并通过比较不同方法的性能来提供有关代表性选择和计划优化之间权衡的宝贵见解，以帮助研究者设计未来挑战性领域的策略。

Jul, 2023

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

基于 N 元组强化学习的魔方学习

本文介绍了使用通用棋盘游戏（GBG) 计算框架学习和解决魔方游戏（或谜题）的方法，详细讨论了魔方的状态表示、变换方式和使用对称性。通过强化学习训练代理，通过 MCTS 包装提高训练代理性能，表明 MCTS 包装和对称性增加了计算成本，但同时也得到了更好的效果。与已有魔方学习代理相比，该方法计算成本较低。

Jan, 2023

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

解决组合复杂度高的长视界深度强化学习任务的挑战

通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Jun, 2022

物理嵌入式规划问题：强化学习的新挑战

通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Sep, 2020

增强强化学习的量子启发式组合优化算法

本文提出了一种基于量子启发式算法 + 强化学习的方法，在解决 Ising 能量最小化问题方面，该方法通过调整其中一个参数以改进最近看到的解，并使用一种新的 Rescaled Rank Reward (R3) 方法来提高稳定的自我博弈训练效果。训练后可在任何问题实例中采样高质量的解，并优于基线启发式和黑盒超参数优化方法。

Feb, 2020