国际象棋端到端识别

Oct, 2023

End-to-End Chess Recognition

Athanasios Masouris, Jan van Gemert

TL;DR通过深度学习模型和引入两种新方法，绕过棋盘检测、方格定位和棋子分类的流程，直接从整个图像预测棋盘配置。同时，引入一种新的数据集 ChessReD，用于训练模型并评估比较其性能，相较于现有的方法，该方法在新的基准数据集上实现了 15.26% 的棋盘识别精度（约为当前最先进方法的 7 倍）。

Abstract

chess recognition refers to the task of identifying the chess pieces configuration from a chessboard image. Contrary to the predominant approach that aims to solve this task through the pipeline of chessboard detection, square localization, and piece classification, we rely on the powe

chess recognition deep learning models chessboard configuration chessred dataset board recognition accuracy

发现论文，激发创造

DeepChess: 棋类自动学习的端到端深度神经网络

本文介绍了一种基于深度神经网络的端到端学习方法，通过无监督预训练和有监督训练来训练神经网络，实现了无先验知识的自动下棋策略，结果表明 DeepChess 能够和经过多年人工调整的机器下棋程序相媲美，是第一个能够实现国际象棋特级大师水平的端到端机器学习方法。

Nov, 2017

基于深度学习的表格识别综述

表格识别是使用计算机自动理解表格，从文档或图片中检测表格位置并正确提取和识别表格的内部结构和内容。本文从数据集、表格识别模型、端到端方法、数据增强和表单识别等方面综述了表格识别问题，并总结和比较了该领域的实验数据，分析了主流和更有优势的方法。最后，还讨论了未来表格处理的可能发展方向和趋势，为表格识别领域的研究者提供了一些思路。

Dec, 2023

ChessVision -- 逻辑连贯多标签分类的数据集

我们介绍了一个数据集，命名为 ChessVision 数据集，其中包含 200,000 + 张带有注释的象棋游戏进行中的图像，需要从图像中重新创建游戏状态，并附带一套约束以确保产生 “合理” 的游戏状态，同时还提出了用于衡量逻辑一致性的附加指标。通过对该任务进行分析，我们发现现有的视觉模型在标准指标上表现可观，但产生了大量不连贯的结果，这表明此数据集对未来研究提出了重大挑战。

Nov, 2023

端到端学习对于健身活动识别是否足够？

通过一项健身活动视频的完全标注数据集，本文证明了基于原始像素的端对端学习方法可以与基于姿势估计的先进动作识别软件管道媲美，并且可以支持实时的重复计数等具有时间细粒度的任务。

May, 2023

深度图像：图像识别的扩展

采用端到端深度学习的方法开发了一种最先进的图像识别系统 ——Deep Image，其关键组成部分包括针对深度学习的定制超级计算机、高度优化的并行算法、使用新的数据分区和通信策略、更大的深度神经网络模型、新颖的数据增强方法以及使用多尺度高分辨率图像。我们的方法在多个具有挑战性的计算机视觉基准测试中取得了优异的结果。

Jan, 2015

以国际象棋为测试基地的语言模型状态跟踪

本研究通过考虑围棋的语言建模任务为基础，探索如何评估 Transformer 语言模型对文本子表面的世界状态的准确跟踪。研究发现，当仅在移动序列上进行训练时，具有足够训练数据的 Transformer 语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要，而只进行部分关注则会导致性能下降。

Feb, 2021

理解基于注意力的编码 - 解码网络：以国际象棋记分表识别为例的案例研究

深度神经网络在学习复杂预测任务方面广泛使用，本文通过研究带有注意机制的编码器 - 解码器循环神经网络，旨在更好地理解这种网络的学习过程。通过对手写棋谱的任务进行表征，并实验性地研究影响学习的因素，我们发现了输入 - 输出对齐、序列模式识别和手写识别之间的竞争、合作和依赖关系。我们认为这些知识有助于更好地平衡因素，以正确训练网络。

Apr, 2024

无搜索的国际大师级棋局

研究表明，机器学习中的重要突破主要归功于规模，特别是大规模的基于注意力的架构和空前规模的数据集。本文通过在一个包含一千万局国际象棋比赛的数据集上对一个含有 2.7 亿个参数的 transformer 模型进行监督学习，利用由强大的 Stockfish 16 引擎提供的动作价值为数据集中的每个棋盘进行注释，得到了约 150 亿个数据点，并达到了 2895 的 Lichess 快棋等级分，成功解决了一系列有难度的国际象棋难题，而无需特定领域的优化或显式搜索算法。研究还表明，我们的模型在性能上超过了 AlphaZero 的策略和值网络（没有 MCTS）以及 GPT-3.5-turbo-instruct。对模型和数据集规模进行的系统研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。为了验证我们的结果，我们进行了一系列关于设计选择和超参数的消融实验。

Feb, 2024

DeepGamble：基于多层实例分割和属性检测的实时玩家智能解锁

论文介绍了一种基于 Mask R-CNN 的视频识别系统，其可以实时检测到 21 点的玩家下注和卡牌，并为每个玩家创建准确的个人画像，将玩家的技能与游戏的运气分开，并可以协助赌场检测可能存在的欺诈活动和计算预期的个性化盈利。

Dec, 2020

动作识别：从静态数据集到移动机器人

通过利用 “提议（proposals）” 方法生成行为区域的模型训练，能够在无约束视频中实现人的行为识别，无论是否存在摄像头运动；该方法在两个新的数据集中取得了超越最先进技术的性能，同时在异常行为检测场景中取得较高的成功率。

Jan, 2017