LMSOC: 社交敏感预训练方法

EMNLPOct, 2021

LMSOC: An Approach for Socially Sensitive Pretraining

Vivek Kulkarni, Shubhanshu Mishra, Aria Haghighi

TL;DR本论文提出了一种将社会背景信息融入大规模语言模型的方法，并在地理敏感的语言建模任务中取得了显著的提升。

Abstract

While large-scale pretrained language models have been shown to learn effective linguistic representations for many nlp tasks, there remain many real-world contextual aspects of language that current approaches d

pretrained language models nlp social context graph representation learning geographically-sensitive language modeling

发现论文，激发创造

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

无监督上下文感知句子表示预训练在多语言密集检索中的应用

本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP)，通过学习建模句子级上下文关系来学习句子表示，从而使句子配对对齐，并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏，在不使用双语数据的情况下，在多语言检索任务 Tatoeba 上实现了新的最佳结果，在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中，该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。

Jun, 2022

上下文预训练：超越文档边界的语言建模

大型语言模型通过 In-Context 预训练，在处理涉及相关文档的任务时，能够显著提高性能，包括复杂的语境推理、长文本推理、检索增强等。

Oct, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

低资源语言建模中上下文的重要性

研究了低资源语言模型预训练，当可用的句子少于 100,000 条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

May, 2022

社会学习：朝着与大型语言模型进行合作学习

在大型语言模型（LLMs）中，介绍了 “社交学习” 的框架，其中模型通过自然语言以隐私保护的方式共享知识。我们提出并评估了两种 LLMs 之间的知识传递方法，第一种情景中，模型生成抽象提示用于教授任务，而我们的第二种方法中，模型通过生成合成示例来传递知识。我们在多个数据集上评估了这些方法，并以记忆作为隐私损失的代理进行了量化。这些受社交学习启发的技术得到了有希望的结果，原始数据的记忆化较低。特别是，我们表明使用这些方法的性能与使用原始标签和提示的结果相当。我们的工作证明了社交学习在 LLMs 中的可行性，建立了基础方法，并突出了几个尚未开发的领域的重要性。

Dec, 2023

SocioProbe：语言模型学习社会人口统计信息的内容、时间和地点

通过使用传统的分类器探测和最小描述长度探测技术，我们研究了不同的单 GPU 预训练语言模型对多个英文数据集的社会人口知识。结果表明，PLMs 确实编码了这些社会人口学方面的知识，并且在一些测试的 PLMs 的层之间分散。我们进一步进行了多语言分析，并调查了补充培训的影响，以进一步探讨在何种程度，何处以及何种数量的预训练数据的情况下编码知识。我们的总体结果表明，社会人口知识仍然是 NLP 领域的一大挑战。

Nov, 2022

噪声排除：测试预训练语言模型信息处理的鲁棒性

本研究通过让模型处理带有分散注意力内容的填空任务，检验了预训练语言模型利用关键上下文信息的能力；研究结果表明，模型往往只是依靠表面上与上下文有关的信息进行预测，而对于上下文语境的理解能力不及预期。

Sep, 2021

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024