图像字幕的自我批判 n 步训练

CVPRApr, 2019

Self-critical n-step Training for Image Captioning

Junlong Gao, Shiqi Wang, Shanshe Wang, Siwei Ma, Wen Gao

TL;DR本文探讨了如何使用无参数评估器来估计图像字幕生成中的状态值，并使用重构的优势函数进行 N 步训练，这种方法相对于 MSCOCO 数据集上的序列级优势和参数化估值方法能够取得更好的性能表现。

Abstract

Existing methods for image captioning are usually trained by cross entropy loss, which leads to exposure bias and the inconsistency between the optimizing function and evaluation metrics. Recently it has been shown that these two issues can be addressed by incorporating techniques from

image captioning reinforcement learning actor-critic algorithm state value estimation self-critical n-step training

发现论文，激发创造

序列型演员 - 评论家算法在图像字幕生成中的应用

本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法，通过计算每个 token 的优势和值实现直接优化语言质量指标，取得了在 MSCOCO 数据集上的最先进性能。

Jun, 2017

图像字幕的自我批判序列训练

本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统，采用强化学习的政策梯度方法直接训练系统，并使用 MSCOCO 测试指标，使性能显著提高，实现了针对端到端系统直接优化非可微分度量的目标。

Dec, 2016

基于深度强化学习的图像字幕生成及嵌入奖励

本文介绍了一种新的图像字幕生成框架，利用决策制定的方式，使用多种神经网络和加强学习算法协同生成字幕，并在 Microsoft COCO 数据集上表现良好。

Apr, 2017

离线强化学习中的保守状态值估计

本文提出了一种名为 CSVE 的保守状态价值估计方法，利用惩罚来学习保守的 V 函数，应用于实际的演员 - 评论家算法中，具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中，我们的方法表现比保守 Q 函数学习方法更好，并在最近的 SOTA 方法中占据了强有竞争力的地位。

Feb, 2023

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

序列预测的演员 - 评论家算法

本文介绍了一种使用强化学习中的 Actor-Critic 方法来训练神经网络生成序列的方法，利用 Critic 网络来预测输出 token 的值，使得我们可以直接优化诸如 BLEU 等任务特定分数，实现了在监督学习环境下条件 Critic 网络的优化，从而在德语 - 英语机器翻译任务和一些自然语言生成任务中表现出更好的性能。

Jul, 2016

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

基于临界性的强化学习变步长算法

介绍了一种基于关键度量的步长算法，利用人工提供或从环境中自学习的关键性函数，测试表明其优于深度 Q 学习和 Monte Carlo 等流行学习算法，适用于 Atari Pong、Road-Tree 和射击游戏等多个领域。

Jan, 2022

自监督学习图像嵌入以进行连续控制

本研究探讨了完全自我监督的学习方法，基于状态达成最短时间来实现通用图像嵌入和控制基元，同时介绍了一种新的状态操作价值函数结构，建立了模型自由和模型基础方法之间的联系，并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。

Jan, 2019

Actor-Critic 实例分割

该研究使用强化学习中的演员 - 评论家方法，在实例分割基准测试中始终提供准确度优势，以解决在场景中分割多个潜在相似且部分遮挡的对象的挑战性问题

Apr, 2019