LMSOC: 社交敏感预训练方法
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP),通过学习建模句子级上下文关系来学习句子表示,从而使句子配对对齐,并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏,在不使用双语数据的情况下,在多语言检索任务 Tatoeba 上实现了新的最佳结果,在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中,该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。
Jun, 2022
通过提示工程,大型语言模型(LLMs)展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而,在自然语言理解和问题回答方面,提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。
Dec, 2023
研究了低资源语言模型预训练,当可用的句子少于 100,000 条时。在低资源情况下,统计 n-gram 语言模型优于最先进的神经模型,主要是因为前者专注于局部上下文。因此,引入了三种方法来提高神经模型在低资源环境下的性能,发现限制模型的自我注意力是最有效的方法,在英语、印地语和土耳其语等多种语言的下游任务中,NLI 和 POS 标记的准确性提高了高达 5%。
May, 2022
在大型语言模型(LLMs)中,介绍了 “社交学习” 的框架,其中模型通过自然语言以隐私保护的方式共享知识。我们提出并评估了两种 LLMs 之间的知识传递方法,第一种情景中,模型生成抽象提示用于教授任务,而我们的第二种方法中,模型通过生成合成示例来传递知识。我们在多个数据集上评估了这些方法,并以记忆作为隐私损失的代理进行了量化。这些受社交学习启发的技术得到了有希望的结果,原始数据的记忆化较低。特别是,我们表明使用这些方法的性能与使用原始标签和提示的结果相当。我们的工作证明了社交学习在 LLMs 中的可行性,建立了基础方法,并突出了几个尚未开发的领域的重要性。
Dec, 2023
通过使用传统的分类器探测和最小描述长度探测技术,我们研究了不同的单 GPU 预训练语言模型对多个英文数据集的社会人口知识。结果表明,PLMs 确实编码了这些社会人口学方面的知识,并且在一些测试的 PLMs 的层之间分散。我们进一步进行了多语言分析,并调查了补充培训的影响,以进一步探讨在何种程度,何处以及何种数量的预训练数据的情况下编码知识。我们的总体结果表明,社会人口知识仍然是 NLP 领域的一大挑战。
Nov, 2022
本研究通过让模型处理带有分散注意力内容的填空任务,检验了预训练语言模型利用关键上下文信息的能力;研究结果表明,模型往往只是依靠表面上与上下文有关的信息进行预测,而对于上下文语境的理解能力不及预期。
Sep, 2021
理解上下文是理解人类语言的关键,本论文介绍了一个上下文理解基准,通过适应现有数据集来评估生成模型的能力,并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。
Feb, 2024