data | BriefGPT - AI 论文速递

关键词data

搜索结果 - 129

波斯钢琴语料库：以达斯塔为考虑因素的基于乐器特征的数据收集
我们通过采用基于乐器的方法来解决数据稀缺问题，提供了一个与波斯式钢琴相关的完整语料库，其中包含有关波斯音乐调式（Dastgah）的相关标签和综合元数据，可在各种热门研究领域中使用。我们收集了来自 2022 年波斯式钢琴作品的特征，并提供给研
PDF8 months ago
测试 RadiX-Nets：可行稀疏拓扑结构的进展
数据的指数增长引发了对机器学习研究和工业使用的计算需求。深度神经网络的稀疏化可以创建对复杂数据进行简化的表示。本文提出了一个用于 TensorFlow 的 RadiX-Nets 测试套件，通过测试 RadiX-Net 性能来简化可扩展模型的
PDF8 months ago
迷你心智：探索 Bebeshka 和 Zlata 婴儿模型
在这篇论文中，我们描述了 Lyon 2 大学参加 BabyLM 竞赛 Strict-Small 赛道的情况。我们采用架构搜索的方法，在数据集上最小化掩码语言建模损失，并引入了两种小型语言模型进行评估。尽管比基准模型规模小一半，我们的模型性能
PDF8 months ago
面向数据的机器学习在线市场：从发现到定价
机器学习和数据建立了一个在线市场，设计了算法来自动发现任何机器学习任务的有用数据，并为卖出数据增强的机器学习模型设计了新的定价机制。
PDF8 months ago
从零到英雄：通过合成数据注入和模型查询检测泄露数据
为了保护数据的知识产权，在机器学习应用日益增多、且其成功与训练数据的质量密切相关的背景下，缺乏对未经授权的模型训练过程泄露数据的检测机制。本文针对表格数据领域，引入了一种名为局部分布偏移合成（LDSS）的新方法来检测训练分类模型所使用的泄露
PDF9 months ago
SWMLP: 基于道路地形特征的车辆轨迹速度预测的共享权重多层感知器
我们提出了一种独立于大规模历史速度数据的车辆速度预测方法，通过使用轨迹道路地形特征来拟合共享权重多层感知器学习模型，我们的结果在定性和定量上都展现了显著的改进，并且为交通分析的新方法设计提供了新的思路。
PDF9 months ago
小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力
通过稳定性和泛化性分析研究了小批量随机梯度下降和本地随机梯度下降的学习能力，从而证明它们可以实现线性加速度以达到最佳风险界限。
PDF9 months ago
生成和评估合成纵向患者数据的方法：系统综述
通过系统回顾方法，本文介绍了在医学领域中生成和评估综合性纵向患者数据的 17 种方法，涵盖了从传统模拟技术到现代深度学习方法的范围，并讨论了开发综合性纵向数据生成方法的实际指南和关键考虑因素。
PDF10 months ago
人工智能与扩展现实（AI-XR）元宇宙中的隐私保护：一项调查
元宇宙是一个新兴的概念，它设想了一个虚拟宇宙，一个协作空间，个体可以在其中互动、创造并参与各种活动。在元宇宙中，隐私是一个关键问题，因为随着概念的发展和沉浸式虚拟体验的普及，对个人信息和数据的隐私变得越来越重要。本文探讨未来元宇宙可能面临的
PDF10 months ago
地球虚拟化引擎 -- 技术视角
柏林峰会关于地球虚拟化引擎（EVEs）的参与者讨论了改进我们应对气候变化能力的思想和概念。EVEs 旨在为广泛用户提供互动且易于访问的气候模拟和数据。它们结合高分辨率的基于物理的模型与机器学习技术，以改进气候预测的准确性、效率和可解释性。作
PDF10 months ago
结合神经网络和积分形式的鲁棒 SINDy 方法
通过利用神经网络的隐式表示方法，本研究提出了一种从嘈杂且有限的数据中发现非线性控制方程的鲁棒方法，并利用自动微分工具获得 SINDy 所需的导数信息，同时引入多个初始条件的数据处理方法。通过多个实例的对比实验，证明了该方法在嘈杂且有限的数据
PDF10 months ago
DiffusionEngine：扩展性数据引擎用于目标检测的扩散模型
最近开发的扩散模型是一个可扩展的数据引擎用于物体检测，作者提出了一个数据扩展引擎 DiffusionEngine (DE) 用于在一个阶段中提供高质量的检测训练对。扩散引擎 DE 由一个预先训练好的扩散模型和一个有效的检测适配器构成，能够以
PDF10 months ago
ORL-AUDITOR：离线深度强化学习数据集审核
本文介绍了一种离线强化学习数据集审核机制 ORL-AUDITOR，通过利用累积奖励作为唯一标识符，成功实现了对已发布数据集的审核，其审核准确度超过 95％，误报率低于 2.88％。
PDF10 months ago
当多得更少：引入额外数据集可能会通过引入虚假关联降低性能
在大规模实证研究中，结合四个不同的开源胸部 X 光数据集和九个不同标签的组合的情况下，通过数据来自两家医院进行训练的模型在两个医院的最差组精度方面甚至比仅使用单家医院的数据进行训练的模型更差。这种出人意料的结果是由于医院特定的图像伪相关性造
PDFa year ago
TabADM：无监督表格异常检测与扩散模型
通过利用扩散算法的概率模型来进行无监督异常检测，该方法能够有效地学习正常样本的密度，并且在实际数据中展示了优越的检测能力。
PDFa year ago
带图形增强信息的神经符号推荐
本文提出一种基于图神经网络和命题逻辑运算的神经符号推荐模型，结合了全局隐式推理能力和局部显式逻辑推理能力，可有效提高推荐系统的准确性。
PDFa year ago
WWW点击率预测的置信度排名
本文提出了一种名为 “置信度排名” 的新型框架，使用两个不同的模型以排名函数的形式设计优化目标，允许针对不同凸代理函数的评估指标进行直接优化，例如 AUC 和 Accuracy。实验结果表明，引入置信度排名损失后，可以在公共和工业数据集的
PDFa year ago
YouTube-ASL: 一个大规模、开放领域的美国手语 - 英语平行语料库
本论文通过 Youtube-ASL，一个大规模的开放领域美国手语（ASL）视频语料库的介绍及研究，证明了手语机器学习的瓶颈在于数据问题，并使用 How2Sign 进行了模型基线培训及评估，并获得了新的微调技术的艺术的最高状态和首次报道的零
PDFa year ago
反比缩放：大不一定好
通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模
PDFa year ago
探究生成人工智能和互联网相互作用
本文研究探讨了生成 AI 技术中，AI 加入真实数据之后可能会产生回馈循环并导致未来模型的降级和多样性降低的情况，从而产生社会影响。同时，对于如何缓解这种回馈循环以及降低未来技术模型降级的影响也提出了相关问题。
PDFa year ago