- 表情符号解码:利用 ChatGPT 增强社交媒体交流的理解能力
ChatGPT 评估了其在已注释和后续任务处理方面的有效性,以验证 ChatGPT 能否在表情符号研究中作为可行的替代品,并且其解释表情符号含义的能力能增加在线沟通的清晰度和透明度。研究结果表明,ChatGPT 对表情符号有广泛的知识,并能 - AAAI多任务学习中的分布匹配:在人脸及其他任务上的大规模研究
挑战现有多任务学习 (MTL) 框架,提出新方法通过分布匹配实现任务间的知识交流,证明少量注释或非重叠注释情况下的 MTL 仍能成功,且在各个领域的案例研究中均带来了较大的性能提升。
- 使用机器学习从佩戴在手腕上的加速度计数据标注儿童的睡眠状态
通过使用支持向量机、提升算法、集成方法、LSTMs 和基于区域的卷积神经网络等不同的机器学习技术对加速度计数据进行建模,我们旨在自动、准确、可扩展地对睡眠日志进行标注,以评估和比较这些方法的预测能力和模型性能。
- GELDA:揭示数据集中的视觉偏差的生成语言标注框架
GELDA 是一个几乎自动的框架,利用大规模生成语言模型(LLMs)为一个领域提出和标记各种属性,并使用 LLMs 决定在图像中对每个属性进行分类的视觉语言模型(VLMs),结果显示 GELDA 能够生成准确和多样的视觉属性建议,并发现偏见 - DURel 注释工具:语义相似度、义项聚类和语义演变的人工与计算度量
DURel 是一个实现语义接近性注释的在线开源工具,支持标准化人工注释和计算机注释,并基于最新的上下文词模型进行建模。注释者的判断通过自动图聚类技术进行聚类,并可视化进行分析。该工具提供附加功能,用于比较注释者之间的一致性,以确保获得的判断 - ScribblePolyp: 基于涂鸦指导的息肉分割通过双重一致性对齐
ScribblePolyp 是一种高效的模型,用于胃肠疾病的息肉分割,并通过一种新的 scribble-supervised 方法,使用少量的注释(涂鸦标签)来减少标注成本,并提出一种两分支一致性对齐方法来为未标注的像素提供监督。
- 视频目标分割中注释的内容与方法学习
EVA-VOS 是一种视频目标分割的人机协作注释框架,通过引入代理模型进行逐帧帧选择和注释类型预测,可以实现高准确度且比传统视频注释方法快 3.5 倍的对象掩模生成与注释时间降低。
- 利用大型语言模型自动化治理知识共享和上下文完整性(GKC-CI)隐私政策注解
使用大型语言模型,可以自动进行隐私政策文本中的高准确度 GKC-CI 参数注释,展示了对数据探索中 GKC-CI 注释的扩展效果。
- 寻找共同基础:口语对话中的注释和预测共同基础
我们介绍了一种新的标注和语料库来捕捉共同基础,然后从每个说话者的角度描述了一些从对话中提取命题并在共同基础中追踪其状态的初步实验。
- 图像隐私分类的人类可解释性和深度特征
隐私是一个复杂、主观和语境相关的概念,对其进行定义十分困难。因此,对图像进行注释以训练隐私分类器是一项具有挑战性的任务。在本文中,我们分析了隐私分类数据集及以不同评估员对具有对立隐私标签的具有争议性图像的注释属性。我们讨论了适用于图像隐私分 - 单正多标语义学习中的视觉语言伪标签
提出了一种称为 Vision-Language Pseudo-Labeling 的新方法,通过使用视觉语言模型来建议强正负伪标签,在 Pascal VOC 上提高 5.5%,在 MS-COCO 上提高 18.4%,在 NUS-WIDE 上提 - 面向工业环境中多视角单目相机系统的物体姿态估计标注流水线
在大型工业空间中,物体定位尤其是物体姿态估计对于物料流动操作至关重要。本文提供了一种在大型单目图像数据集上进行标注而无需人工劳动的方法,通过定位空间中的摄像头、将它们的位置与动作捕捉系统统一,以及使用一组线性映射将感兴趣物体的三维模型投影到 - 在资源匮乏环境中通过大型语言模型的微调进行文本数据增强
通过细调教师大型语言模型产生和注释的数据,可以改善较小模型的下游性能,有时只需要原始训练数据的一小部分。
- 在线声音事件检测的主动学习
在线主动学习(OAL)应用于声音事件检测(SED)时,本研究提出了能够解决 OAL 中存在的挑战的新型损失函数,实验结果表明 OAL 可将训练 SED 分类器所需的时间和精力减少 5 倍,并成功解决现有 OAL 方法存在的问题。
- ICCVALWOD: 弱监督目标检测的主动学习
ALWOD 是一种综合使用主动学习、弱监督学习和半监督学习范式的新框架,通过利用极小标记集合和大型弱标记图像集合的辅助图像生成策略来初始化模型,利用学生 - 教师目标检测对的不一致性和不确定性来选择最有信息量的图像进行注释,并引入了一种新的 - ICCV神经互动关键点检测
该研究提出了一种名为 Click-Pose 的端到端神经交互式关键点检测框架,相比于仅使用手动标注,能够大大降低 2D 关键点注释的标注成本,并探索用户反馈如何与神经关键点检测器合作,在交互方式下更快、更有效地修正预测的关键点。
- 音视时刻:一个大规模标注的音视行动数据集
我们提供了一个大规模的音频视觉动作事件数据集 (AVMIT),它包含了被 11 名受训者独立评估的 57,177 个音频视觉视频的标注结果。这个数据集还附带了预先计算好的音频和视觉特征嵌入,并基于此进行了音频视觉事件识别性能的改进研究。通过 - 将注释者的不确定性融入到篇章关系的表达中
对话语境及刚入门的注释者的不确定性是注释语篇关系的困难任务,我们通过计算包含置信度和对话语境信息的共现统计数据中的语篇关系的分布表示,并进行层次聚类分析,发现计算这些表示并赋予关于置信度和对话语境的信息能够连贯地模拟注释者对于语篇关系标签的 - 解决分类中的类别不平衡数据的检索式文本选择
本文针对在文本分类中使用检索方法选择一组文本进行标注的问题进行了研究,主要挑战包括由于人力资源限制导致标注数量受限以及处理具有少量正样本的二元类别的严重类别不平衡。为了应对这些挑战,本文提出了利用 SHAP 构建 Elasticsearch - 医学图像中高效的子类分割
文章中提出了一种新的方法来实现医学影像的细粒度子类分割,通过利用任务驱动的数据生成方法、先验拼接模块以及分层混合模型等技术手段,使模型在有限的子类注释数据和充分的高层次注释数据下实现与仅采用子类注释数据相近的结果。