破解 Transformer 模型：任务特定的上下文归因承诺在不进行预训练 LLM 微调的情况下提供改进的泛化能力

AAAIJan, 2024

破解 Transformer 模型：任务特定的上下文归因承诺在不进行预训练 LLM 微调的情况下提供改进的泛化能力

Breaking Free Transformer Models: Task-specific Context Attribution Promises Improved Generalizability Without Fine-tuning Pre-trained LLMs

PDF

Stepan Tytarenko, Mohammad Ruhul Amin

TL;DR本研究提出了一种使用任务特定的上下文归因来维持模型的泛化能力并提高下游任务性能的框架。在实验证实中，该模型在三个数据集上展示了卓越的准确性和泛化性能。

Abstract

fine-tuning large pre-trained language models (LLMs) on particular datasets is a commonly employed strategy in Natural Language Processing (NLP) classification tasks. However, this approach usually results in a l

fine-tuning pre-trained language models context attribution classification task generalizability

发现论文，激发创造

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

语言模型利用交叉任务上下文学习解决数据稀缺的新任务

该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务，并设计了一个跨任务提示设置，并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升，同时展示了模型激活相似性与跨任务示例效果之间的强相关性。

May, 2024

语言模型洞察：上下文问答中的归因方法

基于大语言模型的隐藏状态，我们提出了一种新的环境下问答的归因方法，绕过重复训练模型和检索模型开销，提供精细的归因并保持结果质量，在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能，且适用于各种 LLM 架构。

May, 2024

细节藏恶魔：评估基于 Transformer 的方法在细粒度任务中的局限性

该文探讨了基于 transformer 的神经语言模型生成的上下文嵌入在文本相似度问题上的表现，针对不同粒度上的文本匹配任务，发现相较于简单的基准算法 TF-IDF，该模型在细颗粒度上的匹配任务表现欠佳，提出了一种简单而有效的方法，即将 TF-IDF 与上下文嵌入模型相结合，相对性能提升达到 36%。

Nov, 2020

利用上下文目标属性进行目标情感分类

利用 PTLM 的语言建模能力来生成与评价语境相关的目标属性的新观点以及采用异构信息图形式的网络对属性信息、句法信息和语境信息进行建模的模型在三个基准数据集上取得了先进的性能。

Dec, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

超级提示：利用模型无关的语境数据减少视觉常识任务中的数据注释需求

本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果，结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果，从而达到显著的时间和费用节约。

Apr, 2022

详解：用于可解释的上下文学习的任务演示归因

利用内部优化器和影响函数的分配技术，我们提出了一种名为 DETAIL 的方法，以解决在上下文中学习的独特特点，从而有效地提高演示归因和模型性能。

May, 2024

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

概念感知训练提高语言模型的上下文学习能力

文中介绍了一种名为 CoAT 的优化方法，利用模拟训练数据来帮助语言模型更好的利用其背景知识。使用 CoAT 训练的 In-context learners 性能表现良好，达到了在多任务训练中更大规模模型的性能水平。

May, 2023