XQSV：一种变结构网络模拟中国象棋中人类对弈

Jul, 2024

XQSV：一种变结构网络模拟中国象棋中人类对弈

XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi

Chenliang Zhou

TL;DR介绍了一种创新的深度学习架构XQSV，它模拟了中国象棋中人类玩家的行为模式。通过动态改变结构配置，XQSV能够根据其训练数据的特定子集来优化性能。实证评估表明，XQSV在训练Elo范围内具有约40%的预测准确率，并成功模拟了该特定范围内个体的游戏行为。采用三终端图灵测试证明，与传统象棋引擎相比，XQSV模型更准确地模仿了人类行为，几乎不可区分。据我们所知，XQSV是第一个模仿象棋玩家的模型。

Abstract

In this paper, we introduce an innovative deep learning architecture, termed xiangqi Structurally Variable (xqsv), designed to emulate the

发现论文，激发创造

使用浅层强化学习技术控制Atari游戏的现状

本文研究深度强化学习算法 DQN 在 Atari 2600 游戏中成功的关键，并提供一种通用的表示方法，以减轻对每个游戏进行表示学习的负担，并为未来 ALE 计算机学习领域提供了可复制和可比性的基准。

Dec, 2015

强化学习中的神经网络函数逼近的Sigmoid加权线性单元

本研究旨在提出两种适用于强化学习中神经网络的激活函数，即Sigmoid-weighted Linear Unit(SiLU)和其导数函数(dSiLU)。同时提出使用在线学习和简单的动态退火softmax进行行动选择，可以与Deep Q Network（DQN）相竞争。此外，还在Atari 2600和SZ-Tetris等游戏方面，提出的改进网络和学习策略实现了最先进的结果。

Feb, 2017

使用线性模型U-Trees探索可解释的深度强化学习

介绍了一种用于Deep Reinforcement Learning中Q functions的mimic learning framework，使用Linear Model U-trees替代神经网络的Q function预测，通过分析特征影响、提取规则和突出图像输入中的超级像素来帮助理解神经网络的学习知识。

Jul, 2018

深度 Q 学习的理论分析

本论文从算法和统计角度出发，对深度强化学习中的深度Q网络算法进行了理论分析，并给出了收敛速率。作者还提出了Minimax-DQN算法，并将其与马尔可夫博弈的Nash均衡进行收敛速率的比较。

Jan, 2019

将超级智能与人类行为相一致：以象棋为模型系统

研究人员基于人类下棋决策的详细数据，通过AlphaZero构建了一种定制化的人工智能引擎Maia，能够更准确地预测人类棋手的下棋。这项研究表明，重点是建立精确的人类决策模型，安装有人类协作的人工智能系统具有很大的潜力。

Jun, 2020

ChessVision -- 逻辑连贯多标签分类的数据集

我们介绍了一个数据集，命名为ChessVision数据集，其中包含200,000+张带有注释的象棋游戏进行中的图像，需要从图像中重新创建游戏状态，并附带一套约束以确保产生“合理”的游戏状态，同时还提出了用于衡量逻辑一致性的附加指标。通过对该任务进行分析，我们发现现有的视觉模型在标准指标上表现可观，但产生了大量不连贯的结果，这表明此数据集对未来研究提出了重大挑战。

Nov, 2023

从图像到连接：DQN与GNN能否学习Hex的战略游戏？

探索了图神经网络在自我对战强化学习中是否能取代卷积神经网络的关键问题，结果发现图神经网络在处理游戏状态中的长距离依赖有优势和降低过拟合的倾向，但在辨别局部模式方面不如卷积神经网络，此发现暗示了自我对战强化学习中使用游戏特定结构以重新塑造学习的潜在范式转变。

Nov, 2023

国际象棋对弈语言模型中的紧急世界模型与潜变量估计

迄今为止，语言模型的出色表现引发了对其性能来源的争议，是仅仅学习句法模式和表面统计的结果，还是从文本中提取了语义和世界模型？本研究在国际象棋这一更复杂的领域中扩展了之前的工作，通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示，发现该模型具有棋盘状态的内部表示，同时对玩家技能等潜在变量进行估计，提升了模型的胜率达到2.6倍。

Mar, 2024

FDQN：一种用于游戏自动化的灵活深度Q网络框架

在这项研究中，提出了一种最新的灵活深度 Q 网络 (FDQN) 框架，能够通过自适应方法在动态环境中处理高维度感知数据，实时进行决策，并动态调整模型结构以适应不同游戏环境的行动空间，相对于基准模型，在各种 Atari 游戏和 Chrome Dino 游戏中取得优异表现。该框架采用 epsilon-greedy 策略有效平衡新的学习和探索，其模块化结构可以轻松应用于其他基于 HTML 的游戏，同时提到了该框架在实验室条件下成功解决了一个明确定义的任务，并探讨了其在更具挑战的真实世界情境和自动化游戏玩法等领域的潜在应用。

May, 2024

基于模型预测控制、强化学习与回滚的优越计算机国际象棋

本文解决了计算机国际象棋中的移动选择问题，通过模型预测控制、回滚和强化学习的方法引入了一种新的架构。研究结果表明，该架构显著提升了位置评估引擎的性能，为各种水平的国际象棋引擎增加了一层智能。

Sep, 2024