诱导模型匹配：限制型模型如何帮助更大的模型

Feb, 2024

诱导模型匹配：限制型模型如何帮助更大的模型

Induced Model Matching: How Restricted Models Can Help Larger Ones

Usama Muneeb, Mesrob I. Ohannessian

TL;DR考虑使用限制特征的非常准确的预测模型在训练更大的全功能模型时的情景，通过将全功能模型的限制上下文性能与限制模型的上下文性能进行对齐，我们提出了一种将限制模型的知识转移到全功能模型的方法，称为引导模型匹配（IMM），并通过逻辑回归和语言建模等应用实例阐述了它的通用适用性和显式基础。我们还使用 n-grams 作为限制模型，在 LSTM 和 transformer 全功能模型上演示了该方法的原理，并通过简单的强化学习示例进一步说明当收集限制信息比收集完整信息廉价得多时，该方法的潜力。

Abstract

We consider scenarios where a very accurate predictive model using restricted features is available at the time of training of a larger, full-featured, model. This restricted model may be thought of as "side-information", derived either from an auxiliary exhaustive dataset or on the sa

predictive model transfer learning induced model matching language modeling restricted models

发现论文，激发创造

不变的语言建模

提出一种使用不变量风险最小化 (invariant risk minimization) 范式，学习不变表示以实现跨多个环境更好的泛化的方法。实验证明它可以减少有结构的噪声、忽略特定的伪相关性并提高域外泛化性能。

Oct, 2021

基于有限领域数据的廉价推理专用语言模型

大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性，但具有挑战性。本研究规范了这些约束，并区分了四个重要变量：预训练预算（用于在目标领域之前进行训练）、专业预算（用于在目标领域之后进行训练）、推理预算和领域内训练集的大小。在这些设置中，我们比较了机器学习文献中的不同方法。受到推理成本的限制，我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是，我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度，而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。

Feb, 2024

基于核回归的大语言模型上下文学习解析

通过研究大型语言模型，本文提出 Large language models 可以在面对语境示例时模拟核回归算法，并证明了在 Context prompts 上的贝叶斯推理可以被当作大样本上的核回归，并通过实证研究发现，LLMs 中的注意力和隐藏特征与核回归的行为相匹配，这些为 ICL 领域中观察到的多种现象提供了见解。

May, 2023

通过部分不变性学习最佳特征

通过学习来自多个环境的数据，提出在模型学习中，使用部分不变性（Partial Invariance）来放宽 Invariant Risk Minimization（IRM）的假设条件，从而在语言和图像数据上进行实验并得出结论。

Jan, 2023

揭示面具图像建模的黑暗秘密

本研究通过可视化和实验的角度比较了遮蔽图像模型（MIM）和长期优势的监督式预训练模型的关键表现差异，发现 MIM 可以在所有训练模型的层上引入位置归纳偏差并保持所有层的多样性，从而在较弱语义或细粒度分类任务中表现出色。

May, 2022

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

适应分布偏移的大规模多模态模型：内文学习的作用

本文研究了在特定领域如医疗保健中，大型多模态模型（LMMs）虽然具有高鲁棒性，但仍需要领域特定的适应性，因此提出了一种有效的解决方案 —— 上下文学习（ICL）。通过评估无监督的 ICL 方法和提出的基于类别条件对比不变性（CCI）的 InvariantSelectPR 方法，在面对分布转移场景下，改进了 LMMs 的适应能力，显著提高了性能。

May, 2024

神经机器翻译模型可以学习成为少样本学习器

大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力，本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习，在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力，模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理，并在翻译质量和即时适应率方面优于现有技术基线，也就是在展示一次示例后重新生成特定术语的能力。

Sep, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

共享模型而非数据：用于排序的隐私保护模仿学习

本文探讨了使用隐私保护训练模型的预测结果作为监督信号来实现信息检索中文档重新排名这样的 IR 核心任务，并展示了初步实验的结果。研究表明，这种方法可以帮助数据丰富环境下的研究人员分享来自真实用户数据的知识，促进研究合作。

Jul, 2017