- 大语言模型时代的数据中心化人工智能
本篇论文提出了以数据为中心的人工智能研究视角,着重于大型语言模型。我们首先观察到在 LLM 的发展阶段(如预训练和微调)和推理阶段(如上下文学习)中,数据起着重要作用,但却在研究社区中受到了不对称的关注。我们确定了四个以数据为中心的具体情景 - ICLRVTruST: 基于可控价值函数的数据中心可信 AI 的子集选择
提出了一种基于数据的可控信任 AI(DCTAI)框架 VTruST,该框架允许用户控制构建训练数据集时信任度指标之间的权衡,通过提出一种在线值函数为基础的训练数据子集选择算法来实现高效的 DCTAI 框架。实验结果表明,VTruST 在社交 - 数据中心化的自动驾驶进化:大数据系统、数据挖掘和闭环技术的综合调查
本文重点回顾了最新的数据驱动自动驾驶技术,包括自动驾驶数据集的综合分类和闭环自动驾驶大数据管道的现有基准,并讨论了未来的方向、潜在应用、限制和关注点,以推动自动驾驶的进一步发展。
- 高效大型语言模型:综述
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型 - RK-core: 数据集中层次结构探索的已建立方法学
最近,机器学习领域已经从以模型为中心转向以数据为中心,通过积累更广泛的数据集,便于在这些数据集上训练更大型的模型,我们引入一种先进的方法 RK-core,以增进对数据集内复杂的层次结构的更深入了解。我们发现,核心性值较低的样本在各自类别中具 - 以数据为中心的图学习:综述
人工智能发展历史中,高质量数据对各种深度学习模型的影响显著。最近,与基于模型的方法相比,AI 社区的关注重点转向了基于数据的方法,即更好地处理数据以增强神经模型的能力。这项调查从数据为中心的角度全面回顾了图学习方法,并旨在回答两个关键问题: - 大规模深度学习模型的高效训练:文献综述
对于深度学习模型的训练加速技术的综述,主要从数据中心、模型中心、优化中心、预算训练和系统中心五个角度入手,详细介绍了各个方面减小计算复杂度的方法,其中包括数据样本的正则化、模型参数的减少和优化目标的设计等。
- 数据中心的人工智能:一项调查
本文综述了数据驱动人工智能的必要性,以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法,同时讨论了该领域的挑战和各种任务的基准,并提供了一份数据驱动人工智能资源列表。
- 数据中心治理
本文通过数据集和算法评估的方式,探讨了以数据为中心的 AI 治理的系统化,降低了部署时间,提高了解决方案的质量,降低了部署风险,并将系统置于持续的遵守治理要求的状态。
- DC-Check: 一份数据中心的人工智能清单,指导可靠的机器学习系统开发
本文提出了用于数据中心机器学习的检查清单框架,以引导从数据收集到系统部署的全过程所必需的注意事项,并强调数据中心人工智能的挑战和研究机会。
- 使用分散的数据收集和激励措施解决人脸监测器中的偏见问题
本研究提出了使用混合多任务级联卷积神经网络和 FaceNet 嵌入来消除人脸检测模型对不同种族、性别和年龄群体的偏见,并在用户验证的分散化系统中进行模型重训练。
- 在受监管行业中实现合成数据采纳
本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案,并开发了一种全面的测试方法(DAISYnt),以检验这种方法在高度监管的领域中的可行性和质量,例如金融和医疗保健。
- AAAI噪声增强的数据中心健壮机器学习效率
研究数据为中心的机器学习,通过引入多种噪声,提出了一种高效的数据增强方案,以提高黑盒测试环境下模型的鲁棒性。该方法基于轻量级算法构建,经过全面的评估,证明了在计算成本和鲁棒性增强方面的有效性。作者还分享了他们从实验中获得的数据为中心的鲁棒机 - 车联网中基于数据的不良行为检测
本文介绍了一种基于数据中心的恶意行为检测算法,该算法可以独立地检测到错误的信息和节点的错误行为,不需要进行多数决策并上报管理员以处罚,从而减少了计算和通信成本。