图像字幕的自我批判序列训练
本文提出了一种基于有上下文的 LSTM 描述生成器和协同对抗网络鉴别器的图像描述生成方法,并比较了两种训练方法,结果表明 Self-critical Sequence Training 表现更好;同时,介绍了一种用于衡量生成模型的语义得分,构建了 OOC 数据集来检测生成器的泛化能力与语义相似度。
Apr, 2018
本文提出了一种基于损失函数和词错误率的奖励函数的增强学习方法 —— 自我关键序列训练 (SCST) 来解决自动语音识别中的若干问题,取得了 8.7% 和 7.8% 的词错误率相对改进。
Apr, 2022
本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法,通过计算每个 token 的优势和值实现直接优化语言质量指标,取得了在 MSCOCO 数据集上的最先进性能。
Jun, 2017
本文提出了一种深度学习方法来解决自动摘要任务,通过将主题信息结合到卷积序列到序列 (ConvS2S) 模型中,并使用自举式非监督序列训练 (SCST) 进行优化。通过联合关注主题和单词级别对齐,我们的方法可以通过有偏的概率生成机制改善生成摘要的一致性、多样性和信息量。与 SCST 类似的强化训练直接根据不可微度量 ROUGE 优化所提出的模型,在推理期间也避免了曝光偏差。我们在 Gigaword、DUC-2004 和 LCSTS 数据集上对最先进的方法进行了实验评估。实证结果证明了我们所提出的抽象摘要方法的优越性。
May, 2018
本文探讨了如何使用无参数评估器来估计图像字幕生成中的状态值,并使用重构的优势函数进行 N 步训练,这种方法相对于 MSCOCO 数据集上的序列级优势和参数化估值方法能够取得更好的性能表现。
Apr, 2019
本研究介绍了一种 Cost-Sensitive Self-Training 框架,可以更好地利用未标记数据来优化非可分解指标,从而获得更好的半监督学习方法。该框架可应用于视觉和自然语言处理任务,并在多个数据集和指标上取得了优于现有方法的结果。
Apr, 2023
用训练图像字幕模型的教师强迫方法生成的样本非常通用,而更具有独特性的字幕对于检索应用或生成描述图像的替代文本以提高可访问性非常有用。这篇论文提出了一种新的图像字幕模型训练策略,其中利用了不同方式的真实字幕,从而在保持高写作质量的同时生成高度独特的字幕。
Feb, 2024
本文介绍了图像变换序列检索(ITSR)任务,提出一种基于强化学习的解决方案,即 Monte Carlo 树搜索(MCTS)和深度神经网络相结合的模型训练方法,并通过实验结果证明其效果优于监督训练。
Jul, 2023
本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。
Apr, 2020