自主调控互动式序列到序列学习

ACLJul, 2019

Self-Regulated Interactive Sequence-to-Sequence Learning

Julia Kreutzer, Stefan Riezler

TL;DR本研究发现自我调节策略决定了何时向老师或自己寻求不同类型的反馈，可视为解决学会学习问题，从而实现了改进的成本感知序列到序列学习，其中自我调节器通过混合包括更正、错误标记和自我监督在内的不同反馈类型来发现最佳成本 - 质量权衡的 ε- 贪心策略，在交互式神经机器翻译中展示了其鲁棒性和可替代主动学习的前景。

Abstract

Not all types of supervision signals are created equal: Different types of feedback have different costs and effects on learning. We show how self-regulation strategies that decide when to ask for which kind of <

feedback self-regulation learning-to-learn neural machine translation active learning

发现论文，激发创造

监督与自我对弈在新兴通讯中的相互作用

本研究探讨了一种新的教授人工智能代理人使用自然语言的方法，发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好，并提出了一种基于人群的方法以进一步提高表现。

Feb, 2020

损失即奖励：自监督增强学习

本文探讨了如何通过自我监督预训练和联合优化来增加辅助损失，提高强化学习中的数据效率和策略回报。

Dec, 2016

学习如何自我学习：使用神经强化学习增强自我训练

本篇研究提出了基于深度强化学习的自训练策略，通过神经网络表示句子实现自动化的样本选择，实验结果表明该方法在标注性能和稳定性方面优于基线方案。

Apr, 2018

正确我吧：从错误纠正和标记中学习

该论文通过研究 TED 演讲的翻译数据，提出使用错误标记的标注模式可以更加高效地训练神经机器翻译模型，同时保证较高的信号强度和良好的标注代价。

Apr, 2020

通过学习自我纠正生成序列

本文介绍了一种称为 Self-Correction 的方法，该方法可以用于解决序列生成应用中存在的语义约束问题，该方法通过将完美的基本生成器与学习逐步纠正其输出的单独的纠正器分离来实现。我们证明，即使纠正器比基本生成器小得多，在数学程序合成、词汇约束生成和毒性控制等三个不同的生成任务上，Self-Correction 仍然优于基本生成器。

Oct, 2022

主动学习的边际效益：自我监督是否自欺欺人？

本研究提供了一个将自我监督预训练、主动学习和一致性正则化自我训练整合的新算法框架，并在 CIFAR10 和 CIFAR100 数据集上进行了实验，揭示了自我监督预训练在半监督学习中的重要性，被 S4L 技术所替代的主动学习的价值。

Nov, 2020

自我调控学习用于主观视频活动预测

本文提出了一种基于自我调节学习的框架来解决标准递归序列预测在 egocentric 视觉中存在的误差积累问题，同时通过多任务学习进行联合特征学习，明显优于现有的最新技术，可以精确地识别支持活动语义的动作和对象概念。

Nov, 2021

大规模会话型 AI 代理的基于反馈的自学习

本研究提出了一种自学习系统，使用用户 - 系统交互反馈信号自动纠正对话式人工智能系统中出现的各种组件错误，并通过吸收马尔可夫链模型挖掘这些反馈信号中的共同模式，进行可扩展的改进，实现了大规模对话式人工智能系统的自主学习，能显著降低过多次错误和缺陷。

Nov, 2019

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

通过自监督来增强少样本视觉学习

本文提出一种通过自我监督来改善少样本学习的方法，使特征提取器可以在使用少量带注释样本的同时学习更丰富和更具可转移性的视觉表征，该方法可以自然地扩展到从其他数据集中使用多样化的带标签数据的情况，并在各种架构，数据集和自我监督技术上实现了始终如一的改进。

Jun, 2019