- 从多数到少数:基于传播的方法增强皮肤病变分析中的弱势群体
通过有效的扩散增强框架,利用多数群体的丰富信息来改善少数群体的诊断结果,对于皮肤癌等疾病的医学成像分析具有实际价值。
- 众包 NeRF:从生产车辆中收集数据进行 3D 街景重建
借助大规模众包数据的神经光辐射场(NeRF)重建框架,解决了大规模重建中的数据获取问题,并利用这些数据训练 NeRF 模型生成高质量的 3D 场景。
- KDD使用残差模型预测均匀分布和高斯分布的外行星特征
通过结合多变量高斯模型和均匀分位数模型,使用集成的均匀分布和多变量高斯分布来预测 7 个太阳系外行星特征的后验分布,取得了第三名的成绩 (最终得分为 681.57)。
- CVPR关于将自心视觉应用于工业场景的研究
利用第一人称视角的环绕视觉设备,改进和增强工业使用场景中的数据采集、注释、标记和下游应用,为传统工业机器视觉工作流提供补充。
- 智能电网中数据稀缺下的少样本负荷预测:元学习方法
该论文提出了一种基于元学习算法的短期负荷预测方法,通过少量训练样本在任意长度的未知负荷时间序列中快速适应和泛化,并通过历史负荷消耗数据集的评估表明,该方法能够准确预测负荷,比传统的迁移学习和任务特定的机器学习方法提高了 12.5% 的准确度 - 半导体制造中智能工业的少数类预测模型
本文介绍了一种用于智能半导体制造过程中原位数据的稀有类预测方法,旨在解决噪音和类不平衡问题,提高类别分离,并在性能评估中展示了良好的结果。
- 词典中心的数据收集用于基于 LLM 的机器翻译
LexMatcher 方法使用双语词典生成数据集,利用 LLaMA2 作为基础模型并展示出在 WMT2022 测试集上优于已有基线模型的表现,以及在词义消歧和专业术语翻译等任务中显著的性能提升,突出了 LexMatcher 在增强基于 LL - CulturePark: 大型语言模型中跨文化理解的提升
通过 CulturePark,我们生成了 41,000 个文化样本,用于优化八个特定文化的 LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于 GPT-3.5 的模型要么与 GPT-4 相匹 - Socface 项目:大规模收集、处理和分析一个世纪的法国人口普查
从 1836 年到 1936 年的法国人口普查列表中提取信息的完整处理工作流程,采用自动手写表格识别、大规模数据采集、文件协作注释、训练手写表格识别模型以及图像的大规模处理方法,为人口学家分析社会变迁提供了改进法国经济和社会结构认知的重要数 - 人类反馈的最佳设计
从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念,研究了用于学习偏好模型的数据收集问题,并提出了面向排名列表的有效算法,证明了模型估计器随更多数据而改善,估计器下的排名误差也随之减少,并在多个合成和真实 - AI 竞赛与基准测试:数据集开发
发展机器学习数据集的方法论和实践经验,涵盖数据准备、集合、质量评估等方面。
- DIDA: 基于领域适应的去噪模仿学习
通过领域适应的去噪模仿学习,我们设计了两个鉴别器来区分数据的噪声水平和专业水平,从而使特征编码器能够学习与任务相关但领域无关的表示,实验证明我们的方法可以成功处理来自不同类型噪声的演示的有挑战性的模仿任务,优于大多数基线方法。
- 探究基于补丁的脑 MRI 分割任务所需的数据量
本文提出了一种应用于深度学习的早期阶段研究的策略性框架,用于估计训练基于补丁的分割网络所需的注释数据量。通过使用一种新颖的边界微调方法(MinBAT)建立性能预期,并通过基于感兴趣区域(ROI)的扩展补丁选择方法(REPS)标准化补丁选择, - 视频压缩失真对鱼眼摄像头视觉感知任务的影响
通过分析标准视频压缩编解码器对宽视场鱼眼照片的影响,我们提出了一种径向失真感知的区域指标来评估鱼眼照片中的伪影表现,并提出了一种估计最新 VVC 编解码器仿射模式参数的新方法,同时提出了改进视频编解码器在鱼眼图像应用中的一些建议。
- 智能物联网系统中基于网络的公平分布式合作性强盗学习(技术报告)
该论文提出了一种用于智能物联网系统的多人多臂赌博模型,以促进数据收集并纳入公平考虑,通过设计一种分布式合作赌博算法,有效地帮助服务器与其邻居合作选择传感器,最大化数据速率同时保持公平,在奖励和公平方面,实验证明该算法优于现有算法。
- CVPR自主驾驶的广义预测模型
本文介绍了自动驾驶学科中第一个大规模视频预测模型。通过从网络获取大量数据并与多样且高质量的文本描述配对,我们消除了高成本数据收集的限制并增强了模型的泛化能力。该数据集积累了超过 2000 小时的行驶视频,涵盖了全球各地不同的气候条件和交通场 - 关于机器学习算法在摩托车碰撞检测中的应用
全球而言,摩托车吸引了广泛及多样的用户。然而,由于摩托车事故严重伤亡率远远超过乘用车事故,人们致力于提高被动安全系统。该论文通过模拟事故和驾驶操作,收集数据并训练机器学习分类模型,研究了机器学习算法在可靠检测即将发生的碰撞方面的适用性,并通 - COLING在预算范围内进行注解:利用地理数据相似性平衡模型性能和注解成本
提出了一种方法来平衡模型性能和注释成本,该方法通过找到与当前大型视觉语言基础模型训练数据集中的对象和行为最不相似的国家的图像来识别待注释的数据,并证明使用这些国家的数据来补充训练数据可以提高模型性能并降低注释成本。
- 医学影像 AI 研发的一体化平台,涵盖数据采集、筛选、标注和预处理
通过建立医学影像平台,利用收集的来自亚洲的医学影像数据,解决数据不平衡的问题,提供医学人工智能研发所需的数据并合并区块链技术用于数据安全。
- 通过组合泛化实现机器人操作的高效数据收集
通过大规模机器人数据收集,研究表明,在考虑环境因素的情况下利用组合性训练数据,可以更好地提高机器人政策的泛化能力,从而避免收集针对特定情况的数据。