（N,K）- 拼图：基于生成语言模型的强化学习算法基准测试平台

Mar, 2024

（N,K）- 拼图：基于生成语言模型的强化学习算法基准测试平台

$\mathbf{(N,K)}$-Puzzle: A Cost-Efficient Testbed for Benchmarking Reinforcement Learning Algorithms in Generative Language Model

PDF

Yufeng Zhang, Liyu Chen, Boyi Liu, Yingxiang Yang, Qiwen Cui...

TL;DR近期强化学习在语言模型的性能提升方面取得了重要突破，然而缺乏经济实惠且标准化的测试平台来评估和比较这些算法。为了填补这一空白，我们提出了一个广义的 24 数码游戏：$(N,K)$-Puzzle，其挑战语言模型以 $N$ 个整数达到目标值 $K$。我们评估了诸如 Proximal Policy Optimization (PPO) 等已建立的强化学习算法，并与新方法如 Identity Policy Optimization (IPO) 和 Direct Policy Optimization (DPO) 进行了比较。

Abstract

Recent advances in reinforcement learning (RL) algorithms aim to enhance the performance of language models at scale. Yet, there is a noticeable absence of a cost-effective and standardized testbed tailored to ev

reinforcement learning language models 24-puzzle proximal policy optimization identity policy optimization

发现论文，激发创造

PUZZLES：神经算法推理的基准

算法推理在问题解决和决策过程中起着重要作用，强化学习在运动控制、处理感知输入和管理随机环境等任务中表现出卓越的技能。本研究引入了 PUZZLES，这是一个基于 Simon Tatham 的便携式拼图集的基准，旨在促进算法和逻辑推理在强化学习中的进展。PUZZLES 包含 40 个不同大小和复杂程度的多样逻辑拼图，许多拼图还具有一组多样的配置参数。这 40 个拼图提供了关于强化学习代理的优势和泛化能力的详细信息。此外，我们在 PUZZLES 上评估了各种强化学习算法，提供了基准比较，并展示了未来研究的潜力。所有软件和环境都可在此 https URL 网址上获得。

Jun, 2024

强化学习是否适用于自然语言处理：自然语言策略优化的基准、基线和构件

本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐，提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准，并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。

Oct, 2022

深度 Q 学习和近端策略优化：在材料分类任务中的性能比较

本文基于 Petri 网仿真环境，比较了深度强化学习中的 DQN 和 PPO 算法。结果表明，PPO 在所有的评估指标上都表现优异，说明基于策略的算法在解决高维状态和动作空间问题上具有优势。该研究为深度强化学习在生产系统领域提供了不同算法的有效性和适用性。

Jun, 2023

用大型语言模型解决和生成 NPR Sunday Puzzles

使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力，并发现大型语言模型可以解决 PUZZLEQA 谜题，但在生成谜题方面表现不佳，需要未来的研究。

Jun, 2023

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

基于强化学习的拼图式存储系统多项目检索

用深度强化学习算法，包括 Double&Dueling Deep Q Network 来解决谜题式存储系统中多个物品的检索问题，并提出一种紧凑的整数规划模型来评估解决方案的质量。该方法在 PBS 系统中表现出高效性，并提出一种转换算法和分解框架来改善 PBS 系统的适用性。

Feb, 2022

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022

语言模型是否是解谜天才？算法解谜揭示多模态推理中的严峻挑战

这篇论文介绍了一项新颖的任务，即多模式拼图解决，其框架是视觉问题回答。我们提出了一个名为 AlgoPuzzleVQA 的新数据集，旨在挑战和评估多模态语言模型在解决需要视觉理解、语言理解和复杂算法推理的算法拼图中的能力。我们的研究表明，GPT4V 和 Gemini 等大型语言模型在拼图解决任务中表现有限，对于大量拼图的多选题回答设置，它们的性能接近随机。这些发现突出了整合视觉、语言和算法知识以解决复杂推理问题的挑战。

Mar, 2024