pre-training data | BriefGPT

关键词pre-training data

搜索结果 - 33

S4：自主监管跨频谱感知
利用卫星图像时间序列（SITS）的自监督预训练方法 (S4)，通过利用波段差异和地理信息进行预训练任务，从而显著降低对标记训练数据的需求，为 SITS 分割任务提供了一种有效且能使用有限标记数据的解决方案。
PDF2 months ago
大型语言模型中基准测试的基准泄露
利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏，揭示了大规模语言模型在数学推理领域存在的数据误用问题，并提出了关于模型文档、基准设置和未来评估的几点建议，其中包括提出 “基准透明卡” 以促进透
PDF2 months ago
分子性质预测的 Transformer 方法：过去五年的经验教训
使用变压器模型进行分子属性预测的当前研究进行了分析，强调了尚未涵盖的领域，并提出进行标准化数据划分和稳健统计分析的挑战。
PDF3 months ago
羊驼对抗维昆纳：利用 LLMs 揭示 LLMs 的记忆
我们介绍了一种黑盒提示优化方法，利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆，我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示，即 (1) 最小程度地与训练数据重叠，
PDF4 months ago
代码需要注释：用注释增强代码 LLMs
我们研究了大型语言模型的编程技能对其性能的影响，并引入了一种新的数据增强方法和筛选策略来提高预训练数据在代码相关的语言模型性能上的表现。实验证明，使用增强数据训练的模型在两个广泛使用的编程技能评估上的表现优于生成评论的模型和没有使用增强数据
PDF4 months ago
预训练数据中的并行结构促进上下文学习
通过检测训练模型的一对短语是否关注拓展，我们发现预训练数据中的平行结构在很大程度上影响预训练语言模型在不同上下文学习 (ICL) 任务中的准确性。移除这些平行结构会使得模型的 ICL 准确性下降 51%，这表明平行结构在 ICL 中的重要性
PDF4 months ago
通过伪标记成员的微调增强训练数据曝光
通过对神经语言模型进行对抗性微调，以增强其对预训练数据的保留，本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似，我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。
PDF4 months ago
QuRating: 选择高质量数据以训练语言模型
使用 QuRating 方法选择预训练数据，可以捕捉人们直观感知的文本抽象品质。通过对四个品质进行分析，我们发现 LLMs 在进行文本配对判断方面表现优于直接评价文本质量。使用 QuRater 模型学习从配对判断中学习标量评分，并使用它为
PDF5 months ago
大型语言模型是否受到成员推断攻击的影响？
成员推理攻击的大规模评估发现在多种设置中，大型语言模型的预训练数据上的成员推理攻击表现较差，主要原因是庞大数据集和较少训练迭代之间的结合，以及成员和非成员之间存在模糊的边界。我们识别出特定的设置，这些设置中语言模型易受成员推理攻击影响，并证
PDF5 months ago
利用声学伪标记预测正向迁移，以改进低资源语音识别
通过引入相似、高资源语言的数据，可以提高低资源语言的自动语音识别性能，并且通过计算基于诱导声学单元的序列分布的声学令牌分布相似度 (ATDS)，能够准确预测目标语言的 ASR 性能。
PDF5 months ago
基于有效评估模型提取的大规模高质量中文网络文本
我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每
PDF8 months ago
细节决定成败：深入探究数据过滤的兔子洞
本论文介绍了在参加 DataComp 挑战时的学习和解决方案，通过三个阶段的筛选策略与已有方法整合以及提出新的解决方案，如使用水平翻转图像计算 CLIP 分数以减轻场景文字的干扰、利用视觉和语言模型检索目标下游任务的训练样本，重新平衡数据分
PDF9 months ago
减少、重用、循环利用：扰动数据是否比其他语言增强对于低资源自我监督语音模型更好
利用音频增强方法预训练自监督表示学习（SSRL）模型，相比监督模型，在低资源语言中改善了下游音素识别性能。研究比较了不同的增强技术，包括音高变化、噪音添加、目标语言口音和其他语言语音，并发现了综合增强（噪音 / 音高）是最佳的增强策略，超过
PDF9 months ago
解锁差分隐私图像分类的准确度与公平性
预训练的基础模型经差分隐私微调可在下游任务中实现接近非隐私分类器的准确性，并且在四个数据集中实现与非隐私技术的准确性相差不多，包括两个医学成像基准数据集。此外，我们的隐私医学分类器在不同人口群体之间没有更大的性能差异。此里程碑使得差分隐私训
PDF10 months ago
ICLR西班牙预训练 BERT 模型与评估数据
该研究提出了一种基于 BERT 的专门针对西班牙语数据进行预训练的语言模型，并收集了几个专门针对西班牙语的任务，通过对预训练模型进行微调，在大多数任务上取得了比其他基于 BERT 的多语种预训练模型更好的结果，并在其中一些任务上取得了新的最
PDFa year ago
ICML从数据泄露和遗忘中对法律的启示
大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和
PDFa year ago
RemoteCLIP: 远程感知的视觉语言基础模型
RemoteCLIP 是第一个用于遥感领域的视觉 - 语言基础模型，利用数据扩充和转换方法进行预训练，可用于零样本分类、图像文本检索和物体计数等任务，并在 16 个数据集上均优于基线模型。
PDFa year ago
大型预训练模型中基本稀疏性的出现：重要的权重
本文 comprehensively 研究了 multiple pre-trained vision and language transformers 的 induced sparse patterns，进一步导出了 essential
PDFa year ago
理解大型语言模型在自动化规划方面的能力
该研究旨在探讨大型语言模型在自动计划中的应用，研究包括使用何种预训练数据最有效、微调或提示哪种方法最有效以及大型语言模型能否进行计划综合。
PDFa year ago
ACLMultiTabQA：为多表问答生成表格答案
本文提出了一种新的多表问题回答模型，称作 MultiTabQA，除了回答多表问题外，还能生成表格回答。为了实现有效的训练，我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指
PDFa year ago