- Sophia: 用于语言模型预训练的可扩展随机二阶优化器
本文提出了一种简单的可扩展的二阶优化器 Sophia,通过使用对角 Hessian 的轻量级估计作为预处理器,以梯度的移动平均值除以估计的 Hessian 的移动平均数为更新,元素级别裁剪控制最坏情况下的更新大小并驯服 Hessian 的非 - ACL再探类指针网络架构以有效改善下一个单词的分布,摘要真实性及其他方面
本研究发现传统的语言模型中的 Softmax 层有瓶颈,使用 Pointer Networks 可以更高效地预测下一个单词的概率分布,并提出了多种简化 Pointer Networks 的方法,实验表明在 GPT-2 中应用这些方法可以显著 - 学习在场景图上推理:将 GPT-2 微调为机器人语言模型,用于基于场景的任务规划的案例研究
本文研究了如何通过 GPT-2 等大型语言模型将人类请求转化为机器人可执行的计划,并探讨了 LLM 的长期任务规划的适用性和通用性,结果表明 LLM 可有效地执行长期任务规划,展示了神经符号规划方法在机器人领域的应用前景。
- 探究子词分割对 Transformer 语言模型性能的影响
本文研究了形态素如何影响语言模型的性能,通过使用 StateMorph 对芬兰语和俄语进行训练,发现相比于 BPE 和 Morfessor,使用 StateMorph 能够使模型更高效地收敛并获得更好的验证分数。
- 使用深度学习代码进行任务处理的方法
本文介绍了一种提取大型语言模型表示图的方法,以便研究人员可以测试深度学习代码的潜力,并验证代码作为研究关键的有效性。通过案例研究展示了长远的应用,并引起普通用户对深度学习系统与人的互动的注意。最终,旨在更好地理解机器学习系统,扩大其创意能力 - 路径修补定位模型行为
本文介绍了一种名为 “路径修补” 的技术,通过该技术可以对神经网络的本地化行为进行量化测试,从而分析网络机制和可能的故障模式,并通过对 GPT-2 的行为进行表征来优化了归纳头的解释,并开源了一个运行类似实验的框架。
- 使用上下文摘要和领域框架的零样本泛化端到端任务导向对话系统
该研究介绍了一种基于 GPT-2 模型的零 - shot 通用端到端任务导向对话系统,该系统利用域模式允许对未见过的域进行健壮的泛化,并利用对话历史的有效摘要,实现一般任务完成技能的学习。经过了大量的实验评估 SGD 和 SGD-X 数 - 通过零样本可泛化奖励函数个性化任务对话系统
本研究提出了一种名为 P-ToD 的新型框架,使用无监督学习的方法,使用零样本泛化奖励函数来实现个性化任务导向的对话系统,具有适应性强,并使用少量标记训练示例来微调模型。
- GCRE-GPT: 一种用于比较关系提取的生成模型
本文提出一种基于生成模型的比较关系提取器 (GCRE-GPT),能够直接从文本中高精度地提取出比较关系,并在两个数据集上取得了最先进的准确性。
- Inseq: 序列生成模型的可解释性工具包
该研究介绍了 Inseq,一种 Python 库,以民主化访问序列生成模型的可解释性分析,展示了它在减少机器翻译如何存在性别偏见和定位 GPT-2 中的事实知识方面的潜力。
- AAAI向用户传达预测未来:故事情节预测案例研究
本文介绍一种基于 GPT-2 的系统,利用自动故事生成技术生成可靠的短篇小说情节,以协助作家构建一个一致且引人入胜的情节,实验表明,该系统产生的短篇小说情节在一致性和可故事性等方面优于其他模型,作者尝试了一种 story continuat - 基于树形表示与生成的自然语言与数学语言
本文提出一种将数学语言与自然语言一起表示和生成的语言模型,MathGPT,在数学表达式生成任务上表现出超越基准模型的性能。
- ACL文本生成中的国籍偏见
这篇论文分析了语言模型中的国籍偏见,探讨了 GPT-2 生成的故事中如何突出现有的有关国籍的社会偏见,并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法,研究结果表明,GPT-2 在对互联网 - EMNLP基于风格融合的面向受众的自然语言生成
本文提出了风格注入的新任务,旨在将样本的风格偏好融入到预训练语言生成模型中,以生成具备风格的文本。通过有限的人工判断,我们的方法可以为风格分析模型提供数据并增强其样本集,同时平衡流畅性和风格采用。实验结果表明,我们的注入方法可以生成具有吸引 - 序列控制文本生成
本文研究 GPT-2 在生成长度较长的文档时缺乏结构性的问题,提出了一种新的控制文本生成任务 — 顺序控制文本生成,并确定了一个数据集 NewsDiscourse 作为该任务的起点。通过测试不同程度的结构意识,表明具有更高的结构意识可以提高 - I2D2: 用神经逻辑和自我模仿进行归纳式知识蒸馏
本文研究使用新型的常识提取算法来提升较小的语言模型的常识能力,通过符号知识的传递和自我仿真学习,提出了 I2D2 框架并在生成泛化性句子方面进行实证研究,结果表明规模不是影响模型能力的唯一因素,新的算法是可行的。
- 使用 Transformer 进行句子简化 -- 以五岁孩子的语言为解释
本文使用预训练转换器模型探讨了简化句子的方法,并在 Mechanical Turk 数据集上结合 GPT-2 和 BERT 模型取得了 46.80 的最佳 SARI 得分,明显优于之前的最新研究成果。
- 利用 RoBERTa 和 GPT-2 生成现代法语诗歌
本研究提出了一种新颖的神经模型,用于生成现代法语诗歌,该模型由两个预训练的神经模型组成,经过微调以进行诗歌生成任务。模型的编码器是基于 RoBERTa 的,解码器基于 GPT-2,这样模型可以受益于 RoBERTa 较好的自然语言理解性能和 - 通过语义分解将大型语言模型的多步推理能力浓缩为更小的模型
本研究提出对大型语言模型进行知识蒸馏的方法,利用链式思考等分步推理技术来促进推理能力并提高模型性能,通过分解、训练和求解等步骤实现问题的分解和求解,比链式思考方法性能更佳,可广泛应用于数学问题等多场景中。
- 自然语言生成模型中的间接对象识别电路实现及其解释性
本文通过探究 GPT-2 small 在间接宾语识别等自然语言任务中的表现来解释仿真学习模型的行为,其中提及了 26 种注意力头,本研究是目前规模最大的一次试图从机器学习模型的内部组件入手逆向工程自然行为。我们以及利用了因果干预等解释性方法