TANDA：用于答案句子选择的预训练 Transformer 模型的转移和适应

AAAINov, 2019

TANDA：用于答案句子选择的预训练 Transformer 模型的转移和适应

TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection

Siddhant Garg, Thuy Vu, Alessandro Moschitti

TL;DR提出了 TANDA 方法，该方法在自然语言任务中对预训练 Transformer 模型进行微调，通过利用大规模的高质量数据集将预训练模型传输到通用任务模型中，然后进行第二步微调以适应目标领域。在回答句子选择方面，我们建立了一个大规模的数据集来启用传输步骤，表明 TANDA 与 WikiQA 和 TREC-QA 等基准相比具有更高的 MAP 分数。TANDA 生成更稳定且鲁棒性更强的模型并降低了选择最佳超参数所需的工作量。

Abstract

We propose tanda, an effective technique for fine-tuning pre-trained transformer models for natural language tasks. Specifically, we first

tanda transformer models fine-tuning natural questions dataset answer sentence selection

发现论文，激发创造

TADA: 面向 Transformer 的高效任务无关领域自适应

本文提出了一种名为 TADA 的新颖方法，用于领域自适应，其具有模块化、参数高效和数据高效的优点，并且与完全域自适应预训练和适配器相比，具有相同或更好的性能而无需引入额外的参数或复杂的训练步骤。

May, 2023

PANDA：有效模型适应的提示转移与知识蒸馏相遇

该研究提出了一种新的度量方法和 PANDA 方法来解决预训练语言模型中的 prompt 转移问题，PANDA 方法使用知识蒸馏技术来迁移源 prompt 中的知识到目标 prompt 中，从而避免源知识的灾难性遗忘。实验证明，该方法在各种 PLM 尺度场景下的性能均优于传统的 prompt 转移方法和模型调参方法。

Aug, 2022

利用 Transformer 的双向编码表示进行答案选择

本文探讨了在大规模数据集上对 transformer 模型进行语言模型的预训练，并在 QA 和 CQA 数据集上微调 BERT 模型进行答案选择任务，在 QA 数据集中观察到了最大 13.1% 的提升，在 CQA 数据集中观察到了最大 18.7% 的提升。

Nov, 2020

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

可迁移的表格问答

本文设计了新的挑战测试基准 WikiSQL-TS 和 WikiTQ-TS，模拟了实际主题转移场景，并提出了适用于 TableQA 的 T3QA（主题可转移的表格问题回答）方案，包括注入特定主题词汇、生成主题专用训练数据生成程序和逻辑形式重新排序器。我们认为我们的主题分裂基准将会促进更好的部署的鲁棒的 TableQA 解决方案。

Sep, 2021

问答领域的有监督和无监督迁移学习

本文探究了迁移学习在问题回答方面的应用，使用两种问题回答模型，在 TOEFL 和 MCTest 数据集上通过简单的迁移学习技术从 MovieQA 数据集中学到的知识显著提高了性能，尤其是其中一种模型在所有目标数据集上取得了最佳效果，对于 TOEFL 听力理解测试，它的性能比以前的最佳模型提高了 7%。最后，我们证明了即使在目标 QA 数据集示例的正确答案不可用的无监督情况下，迁移学习也是有帮助的。

Nov, 2017

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

基于预训练 Transformer 自然语言模型的开放领域对话生成的实证研究

本研究使用预训练模式和微调模式对基于 Transformer 的语言模型进行实证研究，探讨其在开放域对话生成任务中的性能表现和多样性，发现各种变形策略对生成结果都有不同程度的影响。

Mar, 2020

TransferTransfo: 基于神经网络的对话代理的转移学习方法

该研究提出了一种新的生成数据驱动对话系统的方法，称为 TransferTransfo，它是基于传输学习和高容量 Transformer 模型的组合，使用多任务目标进行微调，取得了当前最先进的端到端对话模型如记忆增强 seq2seq 和信息检索模型所不能比拟的强大改进。

Jan, 2019

LaMDA：面向对话应用的语言模型

LaMDA 是一种专门用于对话的基于 Transformer 的神经语言模型，其具有高达 137B 的参数，并使用公共对话数据和 Web 文本预训练。它具有先进的优化技术，能够解决安全性和事实基础等关键挑战，以及能够在教育和内容推荐领域发挥积极作用。

Jan, 2022