- 面向本体机器学习的鲁棒训练数据集:紧急道路车辆检测案例研究
通过验证训练数据集的领域完整性和图像质量鲁棒性,提高安全关键领域中机器学习模型的可信度和鲁棒性,并通过紧急道路车辆领域的本体构建实验进行了概念性证明。
- PropEn 引导的隐式设计:匹配数据以跟随梯度
通过匹配每个样本与一个具有更好属性值的相似样本,我们提出了一个新的 PropEn 框架,用于在有限数据和复杂景观下进行领域不可知的生成框架,以实现属性增强和有效的设计优化。通过玩具问题和科学应用的广泛评估,包括治疗蛋白质设计和翼型优化,证明 - Phi-3 技術報告:在您的手機上本地運行的功能強大的語言模型
介绍了 phi-3-mini 语言模型,它是一个 38 亿参数的模型,使用 33 万亿标记进行训练,通过学术基准和内部测试的综合表现与 Mixtral 8x7B 和 GPT-3.5 等大型模型相媲美,尽管这个模型足够小而可以在手机上运行。这 - 360VOTS:全景视频中的视觉目标跟踪与分割
360° 全景视频中的视觉目标跟踪和分割是挑战性的,该论文提出了一种新的扩展视野边界表示方法,用于目标定位,并且利用该方法建立了一个适用于全景视觉目标跟踪和分割任务的通用框架。此外,论文还介绍了一个全面的数据集和基准测试集,用于开发和评估该 - 使用函数机制的差分隐私对数 - 位置 - 尺度回归
该研究介绍了在 LLS 回归模型中引入差分隐私的差分隐私对数位置尺度回归(DP-LLS)模型,并通过功能机制将差分隐私融入 LLS 回归。研究证明了所提出的 DP-LLS 模型满足 epsilon - 差分隐私,并通过模拟和案例研究评估了该 - 潜在扩散模型的伪装版权侵权
通过揭示伪装生成算法、伪装的揭示以及如何检测它们来增强现有的工具箱,我们提供了对伪装版版权侵权的更好认识,同时引入了更广泛的承认概念,以便理解此类间接访问。
- 遗忘揭示了语言模型的重要训练数据
利用 UnTrac 方法,通过梯度上升来衡量训练数据集对模型输出的影响,在不需要额外大内存空间或多个模型检查点的情况下,能更准确地估计预训练数据集对生成有毒内容的影响。
- 利用机器学习从 3D 地震和试井数据预测气体封闭
利用 3D 地震数据和气井测试预测气藏的研究具有高效性,并获得了气藏预测质量度量 f1 分数为 0.893846。
- 透明物体追踪的新数据集与干扰识别架构
现代跟踪器在透明物体上的性能大幅下降,原因是透明物体的外观受背景影响且通常包含视觉上相似的物体(干扰因素)。鉴于透明物体跟踪缺乏大型训练数据集,本文提出了首个透明物体跟踪训练数据集 Trans2k,包含超过 2k 序列和 104,343 张 - SVInvNet:一种用于地震波速逆演的密集连接编码器 - 解码器架构
本研究提出了一种基于深度学习的地震速度反演方法,针对不同规模的嘈杂和噪声较小的训练数据集进行了研究。我们的 Seismic Velocity Inversion Network (SVInvNet) 引入了一种新的架构,其中包含了一个增强型 - 探测异常的无监督样本表面化中的最低限度
使用无监督的异常检测方法,我们展示出仅使用极少量的训练样本即可达到甚至超过整个训练数据集的异常检测性能,并提出了三种方法来识别大规模样本中的原型样本。这些原型样本在多个数据集上具有很好的性能,其特征可用于不同模型和其他数据集的选择过程。
- 大规模语言模型的数据管理:一项调查
数据管理在大型语言模型的训练中起着基础性的作用,本文调查了数据管理在预训练和有监督微调阶段的各个方面,包括数据数量、数据质量、领域 / 任务组成等,为构建强大的大型语言模型提供了指导资源。
- 情感分析建模:LLMs 和数据增强技术
该论文在小型训练数据集上提供了不同的方法来进行二进制情感分类。使用了在情感分析和类似领域中提供最先进结果的 LLMs,如 BERT,RoBERTa 和 XLNet。
- 深度文本伪造检测的图像生成和学习策略
近年来,文件处理蓬勃发展并带来了众多好处。然而,被报告的伪造文件图像案例显著增加。特别是深度神经网络(DNN)在生成任务方面的最新进展可能加剧文件伪造的威胁。我们验证了传统的针对使用普遍的复制 - 移动方法创建的伪造文件图像的方法对 DNN - 探究迁移学习和元学习的相对性能
该研究对两种不同方法进行了广泛调查研究,即迁移学习和元学习,以解决机器学习中有限数据的问题,并得出了在不同条件下两种方法的表现并评估了训练数据集大小对它们的影响。这项综合性探索为确定在任何情况下选择最适合的方法提供了见解。
- LLM 培训的标记器选择:微不足道还是至关重要?
在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多 - ProtoNER: 基于原型网络的命名实体识别的小样本增量学习
ProtoNER 是一种基于原型网络的端到端的 KVP 提取模型,允许在现有模型中添加新的类别,并且只需要很少数量的新注释样本。
- 生成式自编码的丢弃模式
我们提出了一种名为解密自编码器的生成模型。在这个模型中,我们为训练数据集中的每个数据点分配一个唯一的随机丢失模式,然后训练一个自编码器来使用该模式作为编码信息来重构相应的数据点。尽管解密自编码器的训练仅依赖于重构误差,但其训练比其他生成模型 - TrainFors: 图像操纵检测和定位的大型基准训练数据集
我们提出了一个标准化的基准训练数据集,用于图像拼接、复制移动伪造、去除伪造和图像增强伪造的 IMDL 任务,并对现有 IMDL 数据集的问题进行了修改。我们还在我们提出的 TrainFors1 数据集上对最先进的 IMDL 方法进行了训练, - 基于字符级神经机器翻译和语言相似度
我们探讨了基于字符级神经机器翻译的 Transformer 架构在不同语言相似度和训练数据集大小上的效果,针对捷克语、克罗地亚语、德语、匈牙利语、斯洛伐克语和西班牙语之间的翻译进行了评估,使用自动 MT 指标,证明了在相似语言之间,字符级输