MOSaiC:协作医学视频评估和标注的基于 Web 的平台
本文介绍了 MOSA(Music mOtion with Semantic Annotation)数据集,它包含由 23 位专业音乐家演奏的 742 个专业音乐表演的高质量三维运动捕捉数据,与音频录音及音高、节拍、乐句、动态、演奏和和谐等音符级的语义注释,是迄今为止最大的音乐领域的交互式数据集。数据集的用途在于交叉模态音乐信息检索(MIR)和音乐内容生成任务,包括从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容,并根据给定的音乐音频生成音乐家的身体动作。数据集和代码可在本文所附网址中获取。
Jun, 2024
Indexity 1.4.0 是一款基于 Web 的工具,专为医学视频标注和外科数据科学项目而设计。我们描述了用于管理视频、注释、本体论和用户的主要功能,以及全局软件架构。
Jun, 2023
UniMOS 是首个全面利用完全标注图像、部分标注图像和未标注图像的通用框架,其中包括多器官分割模块、新的目标自适应损失和用于未标注数据的半监督训练模块。实验证明,与其他先进方法相比,该框架在多个医学图像分割任务中表现出色,同时显著提高了数据利用率并降低了标注成本。
Nov, 2023
本文提出了第一个在线视频情感和主观分析的观点级标注语料库 Multimodal Opinion-level Sentiment Intensity dataset(MOSI),并介绍了一种新的多模态融合方法,共同建模口语和视觉手势。
Jun, 2016
介绍新的数据集和任务,旨在促进医疗视频的理解与自然语言问题的视觉回答,并以这两项任务为重心,提供跨模态(医疗语言和医学视频)的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展,并已通过医学信息学专家的验证和修正。
Jan, 2022
本文提出了一种网络服务来可视化和注释数字化组织学图像,并通过一个以多个注释器为中心的用例来展示和验证该工具,同时提出了一个可用性研究,证明了该工具的可行性。
Jul, 2023
提出了第一个用于医学图像中运动目标分割的基础模型 iMOS,通过对序列中少量图像进行注释,实现双向的运动目标跟踪和分割性能,旨在加快专家的标注速度,推动医学基础模型的发展。
Sep, 2023
3MASSIV 是一个多语言、多模态、多方面的专家标注数据集,由来自 Moj 短视频社交媒体平台的多样化短视频和 11 种不同语言的 100K 未标注视频组成,通过其独特的音频和视觉格式表达了流行的短视频趋势,介绍了 3MASSIV 并分析了其与强基线下其他现代流行数据集的不同之处,并展示了如何使用 3MASSIV 的社交媒体内容在语义理解任务和跨语言分析中应用。
Mar, 2022
MuAViC 是首个开放的多语言视听数据集,共提供了 1200 小时覆盖 9 种语言的视听数据,可应用于嘈杂环境下的语音识别和翻译模型构建。
Mar, 2023
本文介绍了对现代标准阿拉伯语(MSA)文本的词汇语义分析和注释的持续努力,提出了一个半自动注释工具,涉及描述的形态、句法和语义层面。
May, 2016