- 我们在忘却方面取得进展吗?来自首个 NeurIPS 忘却竞赛的发现
我们提供了第一个关于 unlearning 的 NeurIPS 竞赛结果,分析了顶尖解决方案并深入讨论了 benchmarking 和算法开发在这一重要领域的进展。
- 大型语言模型对报纸政治取向的检测
报纸定位存在明显差异问题,需加强 LLM 评估,改进算法以填补该民主国家敏感问题的重大空白,并促进社区参与。
- OAG-Bench: 学术图挖掘的人工策划基准
本文介绍了基于开放学术图的全面、多方面和细粒度的人工筛选基准 OAG-Bench,涵盖了 10 个任务、20 个数据集、70 + 基线和 120 + 实验结果,并提供了新的数据注释策略、数据预处理代码、算法实现和标准化评估协议,以促进学术图 - 设计新的集成学习算法的系统方法
本研究通过重新审视集成学习中的误差分解方法,将其应用于神经网络作为基础学习器的集成学习算法的开发,利用最新的理论框架和方法,设计了 21 种新的集成算法,并证明了其中大部分方法在多样化数据集上具有优越的预测性能。
- QuickQuakeBuildings:用于快速损坏建筑物检测的地震后 SAR - 光学数据集
这篇研究论文介绍了首个专门用于从事件后的高分辨率合成孔径雷达和光学成像中检测地震受损建筑的数据集,利用开放卫星图像和标注后的土耳其 - 叙利亚地震数据,提供了 4000 多个建筑物的光学和合成孔径雷达的共配登记建筑物轮廓和图像片段的数据集, - AI 竞赛和基准测试:挑战和基准测试的生命周期
数据科学研究正在经历一场由技术、互联网和不断增长的计算能力驱动的革命。我们在此提出,需要创造性地利用科学研究和算法开发社区作为强大创新的轴心,通过关键评估、社区实验和集众智等方式,让这些社区参与科学发现探索,从而带来发展新的数据驱动、可复现 - BEDD: MineRL BASALT 评估与演示数据集,用于训练和评测解决模糊任务的智能体
该研究通过 MineRL BASALT 竞赛,提出了一种基于人类反馈学习的正式评估和演示数据集 (BEDD),用于算法的开发和性能评估。该数据集包含了从近 14,000 个 Minecraft 游戏视频中提取的 2,600 万个图像 - 动 - 探测作为标记:重塑 3D 物体检测中的 LiDAR - 相机融合
三维物体检测中的 LiDAR 和相机相结合开发算法容易出现过拟合问题,为此我们提出了一种名为 DAL 的新方法,通过模仿数据注释流程构建一个简单的预测流水线,并通过简单的训练优化其依赖性和可移植性,在性能、速度和准确性方面均具有综合优势,是 - RLLTE: 强化学习的长期演进项目
RLLTE 是一个长期演进、极其模块化和开源的强化学习(RL)研究和应用框架,它通过提供大量组件来加速算法开发和演化,并构建了一个完整且丰富的生态系统,包括模型训练、评估、部署、基准测试平台和大型语言模型(LLM)辅助驾驶器。RLLTE 有 - 将图像配准问题构造为地标检测问题,以更好地表示临床相关性
将图像配准方法转化为地标检测问题,通过子样本的互评分析计算误差分布并使用公式(中值 + delta * 中值绝对偏差)得到阈值,实现了先前无法区分的配准算法的区分,并进一步评估算法的临床意义。
- DENTEX:全景 X 光异常牙齿检测和诊断基准
该研究使用人工智能技术提高牙科诊断和治疗计划的准确性,通过 DENTEX 挑战赛提供的数据集和竞赛结果,为牙科诊断和治疗规划领域中创建 AI 辅助工具奠定基础。
- 策略纸牌游戏人工智能比赛总结
本文总结了基于 Collectible Card Game (CCG) Legends of Code and Magic (LOCM) 的五年 AI 竞赛,介绍了比赛规则、历史、参赛者的方法,以及组织 AI 竞赛的一些建议。
- 用于胸部 X 射线和胃肠道图像分类的视觉 Transformer
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方 - 多级肺动脉高效自动分割:PARSE 挑战
本研究介绍了针对 CTPA 影像中多层次(主干和分支)肺动脉的自动分割方法,为了提高其临床应用效率和准确性,研究人员通过建立 PARSE 数据集并开展相关竞赛,试图为算法开发提供基准参考和效率优化建议,尤其是关注到运行时间和 GPU 内存消 - SLPerf:用于基准测试分割学习的统一框架
本文提出了一个统一且开放的研究框架和库 SLPerf,旨在促进可靠的性能比较和模型算法发展。通过对四个广泛使用的数据集在 IID 和非 IID 数据设置下的广泛实验,详细比较了不同 SL 模式在不同情况下的性能,并总结了 SL 的工程思路和 - CVPR为什么胜者是最好的?
通过对 IEEE ISBI2021 和 MICCAI2021 举行的 80 个比赛的统计分析发现,当今图像分析方法中常用的成功算法有多任务学习和 / 或多阶段管道、强调数据增强、图像预处理、数据管理和后处理;获胜团队常常具有医学图像分析的博 - 利用 PathBench 系统对路径规划算法进行系统比较
本文介绍了 PathBench 平台,它是一个专门用于开发、可视化、训练、测试和基准测试现有和未来的经典路径规划算法以及基于机器学习的路径规划算法的统一路径规划接口,支持对不同硬件系统和地图类型进行算法的比较,提供路径长度、成功率和计算时间 - 医学分割十项全能
本文介绍 “医学分割十项全能赛(MSD)” 的比赛举办及其结论,提出了一种方法,能够在多个任务上表现良好,同时兼顾算法的泛化性能;冠军算法的延续优异表现,验证了这个假设。
- RecSim NG: 面向推荐生态系统的原则不确定性建模
本文介绍了一种名为 RecSim NG 的概率化平台,用于模拟多智能体交互的建议系统,并演示了如何使用它来生成可配置的模型,以帮助研究人员和从业者轻松地开发和训练新的算法。
- DeepTake: 使用多模态数据预测驾驶员接管行为
DeepTake 使用深度神经网络预测司机在自动驾驶状态下的控制接管意向、时间和质量,并在 96%,93%和 83%的准确度下表现出可靠性,结果表明 DeepTake 在预测司机接管时间和质量方面优于以往的方法,这对驾驶员监控和状态检测的算