LMD3:语言模型数据密度依赖性
通过数据的有效利用,我们研究了大型语言模型的训练,提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性,同时以高效的方式训练模型。
Feb, 2024
语言模型如 mBERT、XLM-R 和 BLOOM 旨在实现多语言泛化或压缩,以便在大量(可能是未知的)语言中实现转移。然而,这些模型理想情况下还应该是私有的、语言公平的和透明的,通过将它们的预测与训练数据关联起来。我们展示多语言压缩和语言公平能够与差分隐私兼容,但差分隐私与训练数据影响稀疏性存在矛盾,这是透明度的目标。我们在两个常见的 NLP 任务上进行了一系列实验,并在不同的隐私保证下评估多语言压缩和训练数据影响稀疏性,更详细地探讨了这些权衡。我们的结果表明,我们需要开发一种共同优化这些目标的方法,以找到实际的权衡。
Aug, 2023
本文提出了一种基于线性依赖性的语言模型分解(LMD)方法,研究了预训练语言模型(如 BERT)之间的线性依赖关系,并且发现现有预训练语言模型之间高度相关,为了进一步推进最先进技术,需要更加多元化和新颖的模型。
Oct, 2022
本文研究语言模型在未知测试分布下的性能问题,并提出了一种基于分布鲁棒性的优化方法,称为主题条件风险值(topic CVaR),该方法能够在广泛的潜在测试分布下表现良好,并且在使用 Yelp 评论和新闻混合训练语言模型,并仅在评论数据上进行测试时,相对于标准最大似然估计法(MLE),实现了 5.5 点困惑度的降低。
Sep, 2019
本文通过研究发现,预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时,预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下,我们提出使用多任务学习(MTL)来提高泛化能力。我们在自然语言推断和释义识别上的实验表明,MTL 可显着提高在具有挑战性的情况下的性能,而不会影响分布内性能。此外,我们表明,MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。
Jul, 2020
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
大型语言模型的性能在许多下游任务上都很高,但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较,测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现,在其他基准测试中,相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。
Nov, 2023
语言模型在理解和生成自然语言和形式语言方面已经展示出了显著的能力。然而,它们与大规模知识库等真实环境的整合仍然是一个不发达的领域,影响着语义解析等应用,并导致 “幻觉” 信息的产生。本文是一项实验性研究,旨在揭示语言模型在知识库问答方面所遇到的鲁棒性挑战。研究覆盖了在训练和推理之间具有数据分布不一致的场景,例如对未见领域的泛化,适应各种语言变体,以及在不同数据集之间的可转移性。我们的综合实验揭示出,即使采用了我们提出的数据增强技术,先进的小型和大型语言模型在各个维度上表现出较差的性能。尽管语言模型是一项有前途的技术,但由于数据分布问题,目前形式的鲁棒性在处理复杂环境时是脆弱的且实用性有限。这要求未来在数据收集和语言模型学习范例方面进行进一步的研究。
Sep, 2023
基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立;相反,我们认为感兴趣的分布因具体用例而异。我们发现(1)模型在测试提示中的性能相关性是非随机的,(2)考虑到测试提示之间的相关性,可以改变主要基准测试中的模型排名,(3)导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。
Apr, 2024