通过可微分奖励优化数据使用

Nov, 2019

Optimizing Data Usage via Differentiable Rewards

Xinyi Wang, Hieu Pham, Paul Michel, Antonios Anastasopoulos, Graham Neubig...

TL;DR通过训练适应性评分器的机器学习模型，以及使用可学习的函数对训练数据进行评分，在完成整个训练过程之前就能量化数据的影响，提出了一种名为 Differentiable Data Selection (DDS) 的强化学习方法。该方法在机器翻译和图像分类等任务中提供了显著的计算优势和一致的效果提升

Abstract

To acquire a new skill, humans learn better and faster if a tutor, based on their current knowledge level, informs them of how much attention they should pay to particular content or practice problems. Similarly, a machine learning model could potentially be trained better with a scorer that "adapts" to its current learning state and estimates the importance

发现论文，激发创造

智能选择: 编程与机器学习的混合

提出了SmartChoices，将机器学习作为编程语言的一等公民，通过提供一种3个调用的API以及一个对象SmartChoice来将人类专家定义系统的编程方法与基于数据学习的机器学习方法相结合，在三个算法问题中大大提高了性能，同时无需更改现有实现，且使用标准强化学习方法。

Oct, 2018

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较14个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

学习数据操作以进行增强和加权

本文介绍了一种新的方法，它支持使用相同的梯度算法学习不同的数据操作方案。这种方法基于监督学习和强化学习之间的联系，并调整来自强化学习的现成奖励学习算法，用于联合数据操作学习和模型训练。通过学习文本转换网络和动态适应数据样本重要性来展示数据扩充和数据加权，实验表明所得到的算法明显提高了图像和文本分类的性能。

Oct, 2019

可微扰优化器学习

通过将优化器转换为可微分操作的方法，我们提出了一种扩展端到端学习的方法。该方法依赖于随机扰动优化器，并可以与现有求解器一起使用。我们还展示了如何将此框架与结构预测中开发的一系列损失相连接，并为其在学习任务中的使用提供了理论保证。

Feb, 2020

关于强化学习和分布匹配的论文，用于微调语言模型以避免灾难性遗忘

研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系，并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。

Jun, 2022

可解释的序列优化的动态内存

本论文提出了一种基于自适应贝叶斯学习的代理学习算法来解决强化学习中不稳定情况下的记忆流失问题，并通过统计假设检验实现了可解释性，表现良好。

Jun, 2022

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

基于奖励的条件扩散: 可证明的分布估计与奖励优化

探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布，并且生成新的群体移向用户指定的目标奖励值，通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。

Jul, 2023

深度强化学习邀请

通过将强化学习视为监督学习的一种推广，本文介绍了一个与经典强化学习教材不同的方法，使读者在了解基本的监督学习知识后能够理解类似于近端策略优化（PPO）的最新深度强化学习算法。

Dec, 2023

LASeR：利用多臂赌博机学习自适应选择奖励模型

本文解决了现有奖励模型在新任务中的通用性不足的问题，提出了一种名为LASeR的新方法，能够通过自适应选择最佳奖励模型来优化大型语言模型的训练。研究结果表明，LASeR在多个数据集上显著提高了模型性能，并展现出更高的训练效率，显示了其在多种应用场景中的潜在影响。

Oct, 2024