- GPT:下一个 Token 预测是否足够?对代码逻辑理解的探索
大型语言模型的研究着重于提升预训练数据的规模和质量,而目前对于其真正理解代码逻辑的任务效果仍然存在疑问。本文提出了一种新的任务,即 “逻辑等效代码选择”,证明了当前的大型语言模型在这一任务中表现不佳,并提出了预训练任务 “下一个标记预测 + - 数据混合规律:通过预测语言建模性能来优化数据混合
预训练数据、语言模型、数据混合规律、模型性能和数据计划
- 上下文学习的双重操作模式
通过引入概率模型,我们对上下文学习的双重工作模式进行了解释,并分析了线性函数的上下文学习行为,展示了一种可能的解释,即通过更多的上下文示例,任务学习将产生作用并减少风险。
- 大型语言模型下游任务性能的缩放规律
大型语言模型(LLMs)的缩放规律在设计中提供了重要的指导。本文研究了迁移学习中的缩放行为,探讨了预训练数据的选择和大小对下游性能的影响,并提供了选择适当的预训练数据的实用见解。
- 关于我:使用网页中的自我描述来记录英语预训练数据过滤的效果
大型语言模型的能力来源于它们的预训练数据,而模型开发始于数据筛选。我们的研究基于网络文本,将其连接到社交和地理背景,并创建了一个包含 1030 万个网站创作者自我描述的新数据集,提取了关于他们的兴趣、社交角色和地理隶属的信息。然后,我们进行 - LLaMA 跨越英语:语言能力转移的实证研究
我们通过对 LLaMA 的实证研究发现,在使用不到 1% 的预训练数据时,可以实现与最先进的转移模型相媲美的性能,无论是在知识对齐还是响应质量方面,这一实验结果在十三种资源匮乏的语言中也呈现出相似的趋势。预计实验的结论将有助于开发非英语 L - Oasis: 大型语言模型预训练的数据筛选和评估系统
数据是构建大规模语言模型的最关键元素之一,我们提出了一个名为 Oasis 的预训练数据整理和评估平台,通过用户友好的交互界面实现数据质量改进和量化评估,平台包括自定义数据整理模块和全面的数据评估模块,还发布了由 Oasis 整理的一个 80 - 数据相似性无法充分解释语言模型的性能
大型语言模型的性能在许多下游任务上都很高,但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较,测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现,在其他基准测试中,相似度指标与准确性甚至彼此之间都没 - 在黑盒语言模型中证明测试集污染
通过无需预训练数据或模型权重的方法,我们可以提供对语言模型测试集污染的可证明保证,通过对典型排序的基准数据集的似然性进行比较,我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中,我们的测试发现很少有普遍污染的证据。
- EMNLP分布假设并不能完全解释掩蔽语言模型预训练的好处
我们从分布假设的角度分析了遮蔽语言建模预训练目标函数。我们研究了是否可以将预训练的模型的更好样本利用效率和更好的泛化能力归因于预训练数据的语义相似性编码的分布特性。通过一个合成数据集,我们的分析表明,分布特性确实导致了预训练遮蔽语言模型的更 - 对比交叉模态模型的语言编码器
对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言(VL)和音频 - 语言(AL)任务有所帮助,本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响,发现句子嵌入训练有助于提高对比 VL 模型的性能,但 - ACL通过支持预训练数据理解上下文学习
通过分析预训练数据,研究了上下文学习在自然语言处理任务中的表现,并发现罕见、长尾词汇的含量较高的、具有挑战性的训练数据可以显著提高语言模型的上下文学习能力,将有助于指导未来预训练数据的构建。
- VicTR: 视频条件的文本表示用于活动识别
本文提出了使用 VicTR 方法对视频文本模型进行优化,在视觉信息外,加入文本信息,以提高活动识别性能,实验结果证明在多个基准测试中,该方法具有竞争性能,特别是在视频文本模型的监督、零样本和少样本情况下。
- ACL自然语言处理中预训练模型自动对齐的价值:满足低资源语言需求
本文旨在探寻现代对齐器在未知语言上的表现,并且通过两个下游任务对其结果进行了外部验证,发现尽管基于转换器的方法通常优于传统模型,但这两种方法仍然在技术上互相竞争。
- 预训练模型中非受控的词汇暴露导致组合泛化被高估
通过对 Kim and Linzen(2020)的 COGS 基准进行测试,我们发现两种修改后的评估设置均导致 T5(Raffel et al.,2020)的泛化性能降低,暗示以前报道的结果由于预训练期间未受控制的词汇暴露而被高估。
- EMNLP最近邻语言模型用于风格可控生成
本文构建并评估了一种基于外部记忆的语言建模方法,利用政治正确、正式性和毒性等属性进行样式控制,结果显示基于样式专用数据存储器的生成性能得到了提高,但仍需在未来的工作中探索预训练数据和特定样式的效果。
- Pix2Struct: 屏幕截图解析用于视觉语言理解的预训练
Pix2Struct 是一种预先训练的图像到文本模型,能够解析丰富的文本,可用于多个领域任务,实现了最先进的结果。
- 预训练词频对少样本推理的影响
本文研究预训练语言模型在数值推理方面的能力,以及该能力强弱与预训练数据中各项词语的出现频率之间的关系。研究结果表明,模型对出现频率较高的词语表现更为准确。此外,作者认为在解释理论评价结果时,应考虑到预训练数据带来的影响。
- 多模态转换器中数据、注意力和损失的解耦
本文章论述通过训练多模态 transformer 模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。
- EMNLP预训练数据的成本效益选择:在社交媒体上预训练 BERT 的案例研究
本文讲述了如何在特定领域的 BERT 模型中使用社交媒体文本进行预训练,通过相似度计算筛选出有效的预训练数据,并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。