关键词language model performance
搜索结果 - 8
- ICML在 LLM 时代训练基于私有联邦数据的语言模型
通过使用差分隐私合成数据,我们展示了相比于在设备上使用用户数据进行训练,使用差分隐私合成数据进行训练可以取得更好的模型性能,并且具有更少的通信和计算成本。
- 观察性缩放律与语言模型性能的可预测性
通过观测法利用多个已有模型家族构建单一的扩展律,展示了复杂的扩展现象是可预测的,模型性能可以从简单的非代理基准准确预测,预测了后期训练干预的影响。
- RMDM: 一个用于越南证据验证的多标签虚假新闻数据集
本研究提出了一个新的、具有挑战性的多标签越南数据集 (RMDM),用于评估大型语言模型 (LLMs) 在验证与法律背景相关的电子信息方面的表现,特别关注作为电子证据潜在输入的假新闻。RMDM 数据集包含四个标签:real、mis、dis 和 - 时间常识推理与获取综述
时间常识推理是指理解短语、动作和事件的典型时间背景,并在需要此类知识的问题上使用它进行推理的能力。本文概述了在时间常识推理领域的研究,特别关注通过多种增强和它们在日益增多的数据集上的评估来提高语言模型性能。然而,这些增强模型在处理时间常识属 - DoReMi: 优化数据混合加速语言模型预训练
本篇论文介绍了一种名为 DoReMi 的方法,用于通过预训练数据域的混合比例来提高语言模型性能,该方法先使用集合分布稳健优化(Group DRO)对数据域进行小型代理模型训练来生成域权重,然后使用这些域权重对数据集进行再采样并训练更大的模型 - 无监督方式提升语言模型中的事实知识
本研究提出一种影响掩蔽语言模型预训练的方法,使其在无监督的方式下优先选择有信息的词汇,实验证明此方法大大提高了预训练语言模型在诸如事实回忆、问题回答、情感分析和自然语言推理等知识密集型任务中的表现。
- 使用条件似然过滤减少语言模型的危害
提出一种从网页规模数据集中识别和过滤有害文本的方法,使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然,并根据该结果识别和过滤数据集中的文档,证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低,性能与未过滤基线相比略 - 神经语言模型的缩放律
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。