监督与自我对弈在新兴通讯中的相互作用

ICLRFeb, 2020

监督与自我对弈在新兴通讯中的相互作用

On the interaction between supervision and self-play in emergent communication

Ryan Lowe, Abhinav Gupta, Jakob Foerster, Douwe Kiela, Joelle Pineau

TL;DR本研究探讨了一种新的教授人工智能代理人使用自然语言的方法，发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好，并提出了一种基于人群的方法以进一步提高表现。

Abstract

A promising approach for teaching artificial agents to use natural language involves using human-in-the-loop training. However, recent work suggests that current machine learning methods are too data inefficient

artificial agents human-in-the-loop training supervised learning self-play population based approach

发现论文，激发创造

从游戏中学习潜在计划

该论文提出了基于自我监督控制和玩耍数据的方法来扩大技能学习，结合自我监督控制和多样性玩耍数据集，实现了对环境中所有可用行为的连续学习，取得了在机器人桌面环境中 18 项视觉操作任务上的显著表现，同时表现出更强的抗干扰能力和重试成功的行为。

Mar, 2019

多智能体游戏中语言的出现：学习使用符号序列进行沟通

通过玩转指代博弈，研究者们发现使用可微分方式（ST Gumbel-softmax estimator）的强化学习方法能够有效地解决学习沟通的问题，从而使得交互遵循自然语言的组成性和可变性。

May, 2017

关于新兴沟通在多智能体强化学习中的社会学习作用

本文提出了一种基于信息瓶颈的无监督方法，用于探索非常稀疏的多智能体增强学习中的社交通信情境，该方法可以捕捉引用复杂性和任务特定效用，并开发出一种自然语言灵感的信息组成的词汇表，该词汇表独立于一组紧急概念，使其具有极小的位数，同时可以使用社交影子的观测构成，并通过社交影子来学习通信策略。

Feb, 2023

自主调控互动式序列到序列学习

本研究发现自我调节策略决定了何时向老师或自己寻求不同类型的反馈，可视为解决学会学习问题，从而实现了改进的成本感知序列到序列学习，其中自我调节器通过混合包括更正、错误标记和自我监督在内的不同反馈类型来发现最佳成本 - 质量权衡的 ε- 贪心策略，在交互式神经机器翻译中展示了其鲁棒性和可替代主动学习的前景。

Jul, 2019

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020

互动学习和辅助学习

本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Jun, 2019

附带监督：超越监督式学习

通过多种设计好的学习范式来缓解监督瓶颈，以在文本中诱导各种语义表征，从而帮助决策，减少生成必要的监督信号导致的代价和不可扩展的问题。

May, 2020

自我监督：探究交互环境中的自监督表示

在 Flappy Bird 和 Sonic The Hedgehog 两个视觉环境中，我们对自监督方法进行了小规模研究。我们定量评估了从这些任务中学到的表示，以及它们对新的情况（如新的关卡和纹理）的可推广性。最后，我们通过可视化它们关注的环境部分评估了这些自监督特征。我们的结果表明了表示的效用高度依赖于环境的视觉和动态特征。

Jun, 2019

如何与人工智能对话：指令，描述和自主性

研究从语言中学习以实现语言使用与机器智能的价值对齐，分析了两种不同类别的语言，即指令和描述，运用上下文强化学习进行形式化的建模，并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。

Jun, 2022

利用自然监督进行语言表示学习和生成

本论文研究了三个方面的工作：如何提高预训练模型在 NLP 任务中的性能，在维基百科和释义上利用语言结构以提取知识，以及定制文本资源以建立挑战性的评估任务。

Jul, 2022