ChessGPT:连接策略学习和语言建模
这篇论文通过探究 ChatGPT(OpenAI 的先进语言模型)处理复杂推理任务(以国际象棋为例)的表现,利用评估棋盘理解、国际象棋规则遵守和战略决策能力的健全指标来识别其注意机制和自我调节能力的局限性,以及在自然语言体量较大或棋盘状态理解较明晰时决策力的增强;这些研究结果对于突破自然语言处理的局限,为展示类人认知能力的模型提供了宝贵的信息。
Aug, 2023
本研究证明了自然语言变换器可以支持更通用的战略建模,特别是对于文本存档游戏。我们的 Chess Transformer 在 2.8 百万张国际象棋棋局的训练中能够生成合理的策略和经典开局的局面,加入了与人交互的方法可以正确过滤非法移动并挑战变压器的棋局。未来的研究将构建在这个变换器的基础上,在其他具有从简单但富有表现力的玩家注释中捕捉底层复杂规则语法的策略游戏中特别发挥作用。
Aug, 2020
通过利用大型语言模型(LLM)开展文本分析,本研究构建了 PolicyGPT 隐私政策文本分析框架,并在两个数据集上进行了测试,结果表明在零样本学习条件下,PolicyGPT 取得了强大的性能,并优于传统机器学习和神经网络模型。
Sep, 2023
本研究使用基于文本的记号表示来实现棋盘和其位置的表述,随后应用 BERT 模型在 Nim 和国际象棋游戏中实现无监督学习和玩家行为检测。研究结果表明,该模型已经实践证明在 A 类评级水平中已经可以与 Stockfish 进行胜负对抗了。
Sep, 2022
这篇论文将较大的语言模型应用于智能决策领域,构建了一个以大语言模型为核心的代理体系结构,并通过自然语言的交互发布和执行决策命令,进一步进行仿真验证。通过游戏对抗模拟实验,发现大语言模型的智能决策能力明显优于常用的强化学习人工智能和规则人工智能,并且智能、可理解性和泛化性都更好。通过实验还发现,大语言模型的智能与提示密切相关。这项工作将大语言模型从人机交互扩展到智能决策领域,对智能决策的发展具有重要的参考价值和意义。
Dec, 2023
使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类,与人工干预程度相关的三种使用情景中,我们的结果表明完全依赖最小化人工干预的 GPT 不够充分,人工投入程度越高准确性越高,并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而,优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现,暗示着类似我们的方法相对容易实施,并可实现对大多数给定数据集的自动编码,从而节省资源并降低成本。
Oct, 2023
利用两级分层框架 RL-GTP,在具备高效能 coding 能力的慢速代理和执行编码任务的快速代理之间无缝融合,以高效地处理涉及复杂逻辑和精确控制的实体任务,并取得了在 Minecraft 游戏中以及指定的 MineDojo 任务上的优越表现。
Feb, 2024
本研究通过考虑围棋的语言建模任务为基础,探索如何评估 Transformer 语言模型对文本子表面的世界状态的准确跟踪。研究发现,当仅在移动序列上进行训练时,具有足够训练数据的 Transformer 语言模型可以学习跟踪棋子并预测合法棋步。但模型表现与周围状态有关且完整的游戏历史对提高模型表现至关重要,而只进行部分关注则会导致性能下降。
Feb, 2021
迄今为止,语言模型的出色表现引发了对其性能来源的争议,是仅仅学习句法模式和表面统计的结果,还是从文本中提取了语义和世界模型?本研究在国际象棋这一更复杂的领域中扩展了之前的工作,通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部表示,发现该模型具有棋盘状态的内部表示,同时对玩家技能等潜在变量进行估计,提升了模型的胜率达到 2.6 倍。
Mar, 2024
本研究介绍了一种基于 ChatGPT 的对话式自动化机器学习 (AutoML) 框架作为 “个人数据科学家”,通过多个语言模型实例构建了自然界面,展示了对话式数据科学的新概念,同时也突出了 ChatGPT 的潜在缺陷和改进机会。
May, 2023