神奇的数据及如何查询它们

Jan, 2022

Fantastic Data and How to Query Them

Trung-Kien Tran, Anh Le-Tuan, Manh Nguyen-Duc, Jicheng Yuan, Danh Le-Phuoc

TL;DR本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Abstract

It is commonly acknowledged that the availability of the huge amount of (training) data is one of the most important factors for many recent advances in artificial intelligence (AI). However, datasets are often d

artificial intelligence datasets machine learning data-centric ai computer vision

发现论文，激发创造

数据中心的人工智能：一项调查

本文综述了数据驱动人工智能的必要性，以及针对训练数据开发、推理数据开发和数据维护三个方面的代表性方法，同时讨论了该领域的挑战和各种任务的基准，并提供了一份数据驱动人工智能资源列表。

Mar, 2023

AI 竞赛与基准测试：数据集开发

发展机器学习数据集的方法论和实践经验，涵盖数据准备、集合、质量评估等方面。

Apr, 2024

视觉与语言研究中当前数据集的调查

本文提出一组质量指标，对视觉和语言数据集进行评估和分析并将其分类，结果显示最近的数据集在语言和抽象概念上更加复杂，然而它们各有优劣之处。

Jun, 2015

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

更多数据无出其右 - 地球观测深度学习数据集

机器学习、深度神经网络、人工智能、地球观测和数据集是这篇研究论文的主要关键词，通过文章的回顾和资源描述，为未来发展提供了展望。

Oct, 2023

基于数据库的对话自然语言接口的高效部署

研究使用对话式多轮数据的方法加速训练自然语言到查询语言的机器学习模型，旨在解决领域数据有限及集成过程繁琐耗时等问题。

May, 2020

AI 技术考虑事项：数据存储、云使用和 AI 管道

这篇论文介绍了人工智能，特别是深度学习对大量数据进行训练，测试和验证的需求，以及在对数据进行标注方面实现图像生物库的重要性，并讲述了在实现合适的图像数据集合时，需要考虑法律局限和云计算等多方面，最终提出了一种基于混合云实现 AI pipelines 的解决方案。

Jan, 2022

用数据为中心的方法训练深度神经网络减少数据

本论文总结了在数据中心人工智能比赛中的获胜结论，提出了针对小数据集训练的质量增强方法和基于生成对抗网络的数据点生成解决方案，并指出该管道生成的数据集在比基准要小的情况下提高了 5% 的准确度。

Oct, 2021

以数据为中心的人工智能：观点与挑战

本文讨论了数据在构建 AI 系统中的作用，强调了数据质量和可靠性的重要性。作者提出三个任务：培训数据开发、评估数据开发和数据维护，并列举了一些挑战和展望。

Jan, 2023

视觉与语言研究整合趋势：任务、数据集和方法调查

本次调查聚焦于十项著名任务，介绍其问题形式、方法、现有数据集、评估措施，并与相应的最新方法进行比较。我们的工作超越早期的调查，既非任务特定的，也不仅针对一种类型的视觉内容，即图像或视频。此外，我们还提供了该研究领域的一些潜在未来方向，期望此次调查能激发革新性的思路和想法，以解决现有挑战并构建新的应用。

Jul, 2019