潜在语言学习
通过自然语言条件化的模拟学习方法,结合像素感知、自然语言理解和多任务连续控制的神经网络,可以在无需任务或语言标签的情况下,显著提高任务成果,同时将语言注释成本降低到总数据量的不到 1%。
May, 2020
通过在人工语言上预训练编码器并探究其在自然语言处理中的表现,研究神经网络编码器中可迁移的结构知识,发现嵌套依赖结构的人工语言的预训练可以提供一些可迁移的知识,并且转移的成功与编码器中编码的上下文信息量相关,转移的是语言上下文依赖的位置感知知识。
Mar, 2022
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
Oct, 2023
使用自然语言隐式指令作为复杂动作的表达和组合,而不是直接选择微操作,本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型,结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型,并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。
Jun, 2019
本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验,包括量化计算、识别正则表达式和对字符串的推理,我们发现预先训练的模型明显优于可比较的非预先训练的神经模型,即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时,我们进一步探讨了不同文本领域对用户体验的影响,并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
Oct, 2022
本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象,发现预训练语言模型对于一些推理所需要的语言信息进行了编码,同时也发现了有一些信息的编码比较弱,但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。
Dec, 2021
通过语言控制现有 3D 模型生成新的形状,使用潜在空间和参数空间的映射来学习,从而实现从语言生成未在训练中见过的物体的参数。通过测试,展示了在两种不同类型的参数化形状模型(四足动物和树)上的效果,并且为生成 3D 树木方法的首次使用语言驱动。
Apr, 2024
研究通过现实世界数据进行基于场景语言学习,探索在用户与搜索引擎之间自然互动中建模教师 - 学生动态学习的出现、语义的普遍性,学习场景、表示和组合的功能,并表明该方法在组合性和零 - shot 推理任务方面提供了比 SOTA 的非基于场景的模型更好的结果和泛化能力。
Apr, 2021
通过构建语言任务空间,借助相似性探测与梯度差分的微调方法,研究发现大型语言模型更好地泛化到语言任务的总体概念,利用其共享结构。此外,预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点,这可能解释了语言模型缺乏成功的课程策略的原因。
Jun, 2024