通过学习演示进行文本生成
本研究提出了一种基于强化学习算法的语言模型微调方法,通过与动态黑盒引导语言模型(GPT-3)相互作用,比传统监督学习和 PPO 策略优化算法表现更好,尤其在语义和词汇多样性等方面的指标上有改善。
Jun, 2023
基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD,一种任务无关的数据生成和知识蒸馏框架,通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实验中验证了 GOLD 的优越性和对 less explored 和 novel 任务的适用性。
Mar, 2024
本文介绍了两种自动化技术,基于深度强化学习和奖励塑造来控制计算机生成的故事的情节,其中一种利用 PPO 对现有的基于变压器的语言模型进行微调,以生成既能连续文本又能寻求目标的故事;而另一种从不断展开的故事中提取出一个知识图谱,由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。
Dec, 2021
本文提出在语言模型中使用策略梯度强化学习进行微调,以直接优化更好的文本生成,将这种方法应用于最小化生成文本中的重复,并展示了当与 unlikelihood training 相结合时,我们的方法进一步减少了重复而未影响语言模型质量。此外,我们还评估了其他方法来改进训练和解码时间,并使用各种度量标准来比较它们,以达到更好的文本生成输出的控制。
Jan, 2021
我们考虑一个文本规划方案,提出了一种基于模型的模仿学习方法,其中包括新颖的指导网络来关注更长时间内的生成过程,改善了局部流畅性和一致语义的问题,并带来了性能上的提升。
May, 2020
本文提出一种基于预训练语言模型的文本生成生成对抗性学习框架,采用对比鉴别器和近端策略优化来稳定和改进文本生成性能,实验证明该方法在无条件和有条件文本生成任务上均优于 MLE 基线。
Apr, 2020
安全增强学习旨在找到在满足成本约束的同时实现高回报的策略。本研究提出了一种离线到在线的安全增强学习框架,通过引导在线安全增强学习训练,将离线决策变压器策略提炼为轻量级策略网络,在挑战性的安全关键场景中成功解决决策问题。
Sep, 2023
本文提出了将 prompting 和 reinforcement learning 相结合的方法以控制 chatbot 生成的内容,并通过 multi-task learning 提高该方法的泛化能力和适应性,实验证明所提出的方法可以成功控制多个 SOTA Dialogue Models。
Jun, 2022
基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果,本文针对自动生成和评估反馈的问题,提出了数学反馈评估标准和反馈生成框架,通过强化学习优化反馈的正确性和一致性,并通过案例研究定性分析了生成和评估系统。
Mar, 2024
本论文针对文本生成中奖励稀疏和模式崩溃等问题,提出采用反强化学习方法实现文本生成,即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数,将奖励和策略函数进行优化,实验结果表明该方法较之前的方法可以生成更高质量的文本。
Apr, 2018