- 医学领域问题分类方法研究
本文提出了一种针对医疗领域的问题分类数据集,结合多个神经网络模型实现了对问题的多维特征提取,并提出基于多维特征的问题分类模型,实验结果表明该方法可以有效提高问题分类的性能。
- 法律领域中以数据为中心的机器学习
探究数据集大小、训练数据集和测试数据集的划分、人工标注标签准确性等对深度学习分类器性能的影响,指出类的语义同质性会影响分类的难度,并讨论数据集属性评估的建立方法以及数据集增强可以作为提高 AI&Law 各种任务分类性能的另一条途径。
- MuLVE, 多语言词汇评估数据集
本研究介绍了一种多语言词汇评估数据集(MuLVE)和 fine-tune 预训练的 BERT 语言模型,用于词汇评估,结果表明,在提供的数据集下,BERT 语言模型具有 > 95.5 的准确度和 F2 分数,该数据集可在欧洲语言网上获得。
- CRASS: 用于测试大型语言模型反事实推理的新型数据集和基准
介绍了使用 “CRASS” 数据集和基于问题的反事实推理条件作为一种新颖且强大的评估大型语言模型的工具的基准,其中包括与验证过的人类基准的得分支持。通过对六种最先进的模型进行测试,结果表明它对这些模型提出了有效挑战,并为它们的改进开辟了相当 - Learn2Reg:深度学习时代全面多任务医学图像配准的挑战、数据集和评估
本文描述了 Learn2Reg 挑战赛的数据集,任务,评估方法和结果,以及结果的进一步分析。同时,该研究也揭示出许多提高医学图像配准表现的方法,从而推动了该领域的发展。
- 机器学习数据集:从遥感数据预测野火蔓延的次日传播
本研究制作了一个散装的、大规模的、多变量的基于历史野火的遥感数据集,结合 2D 区域的地形、植被、气象、干旱指数和人口密度等多个自变量,借助机器学习解决了野火蔓延的问题。通过神经网络的预测表现,与逻辑斯蒂二元回归和随机森林算法的比较,展示了 - 面向问答系统的俄语 Jeopardy! 数据集
本文介绍了来自俄罗斯官方问答数据库 Chgk 的 Jeopardy!- 类俄语问答数据集,包括 379,284 个问题,观察其语言特征和相关的 QA 任务,并总结了基于该数据集的 QA 竞赛的前景。
- WaveFake: 一份数据集,用以方便音频 Deepfake 检测
本文介绍了一些用于分析音频信号的常见信号处理技术。我们提供了一个新的数据集,并采用了两个基线模型,以便进一步研究深层次的生成建模在音频信号领域的应用。
- EMNLP上下文中的结构化缩写扩展
该研究探讨了在上下文中恢复规范化的缩写消息的任务,开发了两种强大的基准线来进行缩写扩展,并生成了一个大型的开源缩写数据集。
- ICML批量强化学习中三种正则化方法的比较与统一
本篇论文研究了在批量强化学习中,如何利用加正则化的方法解决由于样本不足或过于复杂导致的模型准确度不高和性能不佳的问题,并通过实验验证了在相同的加正则化措施下,MDP 结构和数据集中状态 - 动作对的分布如何影响其性能表现。
- RadarScenes: 一款用于汽车应用的真实世界雷达点云数据集
本研究提供一份新的汽车雷达数据集,用于支持以机器学习为基础的雷达感知算法的研发,特别关注移动道路用户的检测和分类,数据集由四个系列雷达传感器提供数据,持续记录超过四个小时的驾驶过程,同时提供详细的测量和标注信息,以便确保算法的公共性能评估。
- ScalarFlow: 一种大规模的真实世界标量输运流体数据集,用于计算机动画和机器学习
本文介绍了 ScalarFlow,这是第一个大规模真实烟雾柱重建数据集。我们提出了一个准确的物理基础重建框架,其中包括估计难以观测的流入区域和一种有效的规则化方法。我们的数据集包含复杂和自然的自然驱动流,并演变至湍流,并包含可观测的标量传输 - ACL从社交媒体文本中推断兴趣点类型
研究了社交媒体文本与所发布地点类型之间的关系,提出了一个包含大约 200,000 条英文推文的新数据集,用于预测推文所发布的位置类型,并训练分类器来预测推文所发送的位置类型,能够达到宏观 F1 值 43.67,并揭示了与每种类型场所相关的语 - 全球全季 Sentinel-2 卫星影像云去除的多源数据融合
通过构建一个新的数据集,本文针对云遮挡导致的地球影像质量下降问题,提出了一种适用于不同区域、季节和云覆盖度变化的新型云去除模型,并在两个性能指标上进行了评估。
- CoVoST 2 和大规模多语音言语音到文本翻译
发布 CoVoST 2 语料库,其中包括来自 21 种语言翻译成英语和从英语翻译成 15 种语言的大规模多语言语音翻译语料库,此数据集是目前总量最大、语言覆盖面最广的公开数据集,同时提供 extensive 的语音识别、双语和多语言机器翻译 - PlantDoc: 一份用于植物疾病视觉检测的数据集
本文旨在探索计算机视觉方法用于大规模、早期检测植物疾病的可能性,并介绍了一个用于视觉植物疾病检测的数据集 PlantDoc,其中包括 2598 个来自 13 个植物物种、17 个疾病类别的数据点,学习 3 个模型来分类植物疾病,结果表明使用 - KDD互联网索赔数据集及其情感与可信度比较
本文介绍了利用 snopes.com 收集数据并构建数据集,帮助理解所谓 “假新闻” 传播背后的机制,我们还形式化定义了网络主张以及其可信度和情感,并探讨了情感与可信度之间的关系。
- MM基于查询的 PAC 学习推理
本研究探讨了利用支持证明查询的数据集来学习规则的问题,通过修改足够不考虑知识库内容的后向证明搜索算法,可以同时学习这些规则,并使用它们进行证明搜索来给出像链接和解析这样的标准逻辑的算法。
- OpenEDS: 开放眼睛数据集
本文介绍了一个大规模的眼镜数据集 OpenEDS,该数据集利用虚拟现实(VR)头戴式显示器捕获图像,其中包括 152 名参与者的眼部区域,该数据集可用于眼动跟踪研究和机器学习领域的语义分割任务。
- MS-ASL:用于理解美国手语的大规模数据集和基准
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。