- 深度学习方法开发在计算生物学中的机遇
分子技术的进展推动了与生物学和生物医学相关的数据集的巨大增长。这些进展与机器学习中的深度学习子领域相似。可微分编程工具箱中的组件使深度学习成为可能,使计算机科学家能够用灵活和有效的工具解决越来越多的问题。然而,这些工具中许多尚未充分应用于计 - 人工智能医学数据集术语:历史回顾与建议
医学和人工智能工程代表了两个不同的领域,每个领域都有数十年的出版历史。两个有重叠术语的不同领域合作时,可能会出现沟通不畅和误解。本文通过考察历史文献,包括文章、写作指南和教材,追溯数据集术语的分歧演化及其影响。通过明确这些数据集的准确和标准 - 形式背景的仓库
该研究分析了现有 FCA 数据集传播的情况,提出了建立一个中心 FCA 数据存储库的要求,并强调了此举面临的挑战。
- 透明比较多语言自然语言处理数据集中的语言多样性的一种度量
提出了一种评估数据集语言多样性的方法,通过比较语言特征集合的 Jaccard 指数来分析,发现大部分流行的多语种数据集中缺乏多种语言类型,特别是 (poly) synthetic languages。
- 检测非人言论的数据集
本文介绍了两个包含政治言辞和电影字幕对话的数据集,分别是一个大型自动收集的语料库和一个较小的手动标注数据集,这些数据集能为我们提供广泛且多样的去人性化数据,从而实现进一步的探索性分析和自动分类的去人性化模式。同时,这两个数据集将公开发布。
- 大规模估计局部学习系数
本论文通过在深度线性网络上使用 {t arXiv:2308.12108 [stat.ML]} 中的方法,经验性地展示了如何准确自洽地测量局部学习系数(LLC),并证明了估计的 LLC 具有理论量的尺度不变性。
- 基于深度学习的表格识别综述
表格识别是使用计算机自动理解表格,从文档或图片中检测表格位置并正确提取和识别表格的内部结构和内容。本文从数据集、表格识别模型、端到端方法、数据增强和表单识别等方面综述了表格识别问题,并总结和比较了该领域的实验数据,分析了主流和更有优势的方法 - EMNLP结合计数过程和分类技术,改进技术辅助审阅的终止规则
利用文本分类器推导信息,扩展了一种有效的停止规则,可以在多个数据集上提高性能并优于其他方法。
- 多任务面部(MTF)数据集:用于多种分类任务的合法和道德合规的面部图像收集
通过公开可用的名人图像,严格遵守版权规定,我们以 MTF 图像数据集为基础,基于深度学习模型提出了多任务人脸数据集,用于进行人脸识别、性别、年龄和种族分类研究,与数据的原始获取和处理进行性能比较并提供基准线。
- 3D 人脸重建:前往取证之路
3D 面部重建算法在图像和视频中的应用广泛,但在法医应用中,其作为证据的作用仍不明确。本文调查了 3D 面部重建在法医学中的应用约束、潜力和限制,并提出了可能取代或补充现有数据集的替代方案。
- 150 万个材料叙述由聊天机器人生成
人工智能和自然语言数据集为探索固态材料提供了巨大潜力。
- 基于非负矩阵分解的多模态多视角聚类
通过结合相关对象,无监督机器学习技术旨在揭示数据集中的潜在模式。在本文中,我们提出了一项关于多模态聚类算法的研究,并提出了一种名为多模态多视图非负矩阵分解的新方法,其中我们分析了多个局部 NMF 模型的协同作用。实验结果表明,所提出的方法具 - 深度学习用于不同数据类型隐写分析的综述
这篇综述论文提供了基于深度学习的鲁棒隐写分析方法的全面概述,包括图像、音频和视频等各种类型的鲁棒隐写分析,讨论了最常用的深度学习技术,并探讨了更先进的深度学习技术如深度迁移学习(DTL)和深度强化学习(DRL)在提升隐写分析系统性能方面的应 - 使用 Pantheon 编译的神经网络重建宇宙学
通过使用人工神经网络在各种数据集中,包括相关的数据集,重建哈勃图。我们使用 ReFANN 扩展了这个网络,以包括非高斯数据点,以及带有协方差矩阵的数据集,与现有的基于高斯过程的结果进行对比,并进行零测试以验证宇宙学的一致模型的有效性。
- 遥感变化检测方法的综述:过去十年的全面回顾
此文章综述了遥感变化检测中深度学习在图像处理中的重要性,提供了算法分类和数据集分类的综述,并总结了现有算法的性能,为未来的研究方向提供了启示。
- EasyPortrait - 人脸解析与肖像分割数据集
本文介绍了使用众包平台创建大规模、干净的图像分割数据集的流程,并在 EasyPortrait 数据集上训练多个模型并展示实验结果,EasyPortrait 包含了 20000 张主要的室内照片,分成 9 类,并可用于皮肤增强和牙齿美白等任务 - AAAI流行 AI 基准测试的能效考虑
本文探究了人工智能资源感知和可持续性的问题,强调评估和报告能源效率取舍的重要性,研究发现不同的数据集都有自己的效率取舍,方法可以更或 weniger 地表现得高效。
- unarXive 2022: 包含结构化全文和引用网络的 NLP 预处理 arXiv 出版物
提出了一个新版的数据集 unarXive,包含了跨越多学科和 32 年的 1.9 百万篇学术出版物,有更完整的引文网络和更丰富的文档结构表示方法和非文本内容的呈现。提供了用于引文推荐和 IMRaD 分类的训练 / 测试数据集。
- 故障预测中深度工业迁移学习调查
本文是关于利用深度学习技术处理故障预测的应用场景、数据集不足和算法难定制等问题,探讨应用迁移学习和连续学习的方法来解决现实场景中故障预测问题的自适应性,并且为未来的研究提供最佳实践和通用的数据对比基准。
- 欺诈分析:十年研究 -- 领域中的挑战和解决方案
本文系统分析了 2011 年至 2020 年间近 300 篇有关欺诈分析的研究文献,总结了应用领域、面临的挑战、方法和绩效度量,并提出了未来研究的关键词策略和数据集要求。此外,本文提供了一个在线数据库,以帮助其他研究者进行进一步的研究。