- 从实证测量到增强数据速率:基于机器学习的侧链通信中 MCS 自适应方法
本文中我们提出了一种使用机器学习方法预测适当调制编码方案 (MCS) 等级的方法,并结合不同算法对具有最高数据传输率的 MCS 等级进行定位预测,并在此基础上,显示出相较于传统方法选择 MCS 等级的显著改进。然而,使用机器学习方法需要比目 - AGS: 国内场景声音事件识别的数据集和分类系统
本文提出了一个家庭环境声音数据集(称为 AGS),考虑了场景中各种类型的重叠音频和背景噪音,比较分析了先进的声音事件识别方法,并展示了该数据集的可靠性和新数据集带来的挑战。
- MMLibriWASN: 面向异步录音设备的会议分离、分辨和识别数据集
通过使用九个不同设备,总共记录了 29 个频道,LibriWASN 是一个测试集,用于无线声学传感器网络中的时钟同步算法、会议分离、发音和转录系统的检验。
- 生成式视觉问答
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的 - 选举激励数据集:波兰选举的应用案例
通过一个包含 6,112 个人工标注推文的数据集,我们调整了一种名为 HerBERT 的波兰语言模型,实现了对波兰语选举煽动的检测,并为此提供了多种潜在应用情景,并对推特上的波兰 2020 年总统选举进行了分析。
- IJCAINIPD: 基于真实世界的非独立同分布数据的联邦学习人体检测基准
本研究分享一個由五個不同攝像頭搜集而成的非獨立同分布 (NIID) 物體偵測數據集 (NIPD),用以推動 FL 的應用和智慧城市的安全。
- CBBQ:一個由人工智能協作策劃的中文偏差測試數據集,供大型語言模型使用
本文提供一个超过 10 万个问题的中文偏见基准数据集,包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见,通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤,展示了数据集的广泛覆盖和高多样性,实验表明所 - 基于深度学习的酒店浴室图像自动准确分类
本研究设计了两个不同版本的深度学习算法,通过分析图像将酒店浴室分类为满意或不满意,并使用 “HotelBath” 数据集分享了这个数据集。两个算法表现出高准确性,最优算法达到了 92.4% 的准确性和 0.967 的 AUC 得分。
- 情感体验者识别:个体情感分析的先决条件
本研究针对情感角色标注进行实验,发现在情感体验者的识别上存在困难,但详细提出了一套自动情感体验者检测实验并于此基础上进行情感识别,表明在注释不充分的情况下,进行情感体验者识别可以提高情感识别的准确性。
- 苏莱曼尼亚库尔德语(苏拉尼)命名实体语料库 —— 对库尔德 - BLARK 命名实体的一种修改
该研究提出了一个涵盖库尔德语(Sorani)中几个实体类别的数据集,涉及命名实体识别等自然语言处理领域,并公开该数据集供非商业用途,以填补目前资源匮乏的局面。
- 针对龙与地下城的特定领域大数据集的合成和评估
该论文介绍了 Forgotten Realms Wiki(FRW)数据集及其相关分析,包括采用 FRW 进行领域特定自然语言生成,并利用该数据集进行 Dungeons&Dragons 领域特定的自然语言生成以及命名实体分类的评估。
- 落单新维加斯对话语料库的情感分析
使用多种通用语言处理的大规模字符串数据对 Fallout New Vegas 的多语言情感对话数据集进行分析,结果显示多语言 BERT 在大多数语言中优于 XLMRoBERTa,多语言 BERT 在西班牙数据中达到了最高的整体准确率 54% - 利用智能取样和双损失方法检测 CSP 电站中的损坏吸收管
本文介绍了一种使用机器学习算法自动检测集中式太阳能发电厂的损坏和故障问题的自动化解决方案。该方案使用无人机提供数据,以及来自 7 个真实工厂传感器提供数据,同时考虑了分类不平衡问题,有效提高了检测准确率。同时,该研究提供了一个此类数据集,为 - 使用 BABE 远程监督进行神经媒体偏见检测 -- 专家标注偏见
本论文介绍 BABE 数据集,该数据集由专家标注,在标注质量和协议一致性方面比现有研究有了更好的表现。基于该数据集,使用 BERT 模型进行监督学习,可以自动检测新闻文章中引入偏见的句子。最终实验结果表明,该方法优于现有方法,在该数据集上的 - 学习如何回答代码的语义查询
本研究构建了一个名为 CodeQueries 的数据集,并提出了基于神经网络的代码语义查询系统,结果表明神经模型可以对代码语法错误进行容错,但代码规模增大、存在不相关的代码以及训练例子减少均会限制模型性能。
- 法律文档摘要评估框架
本研究提出了一种基于意图的自动摘要度量,通过在法律文件中注释意图短语,证明了该系统可以被自动化,相比于其他自动化度量如 BLEU,ROUGE-L 等,该度量在人类满意度方面表现更好。
- 面向不确定性的个人助手:帮助制定个性化隐私决策
通过使用显式地建模不确定性来代表隐私问题,运用证据深度学习自适应分类,结合用户自身对隐私的理解和标签,本文提出了一种个人助手,其能够精确识别不确定的情况,并根据用户的需求提供个性化推荐,从而有助于用户更好地保护自己的隐私。
- RaFoLa: 检测强制劳动指标的基于理由注释的语料库
本研究提供第一个公开可访问的英文语料库,其中包括了由专业数据源检索到的 989 篇新闻文章,并根据 ILO 的风险指标对其进行了注释。对于每篇新闻文章,都进行了两个方面的注释:强迫劳动的指标作为分类标签和证明标注决策的文本片段。数据集可促进 - So2Sat POP -- 大陆尺度空间人口估算的数据集
研究人口分布,提供包括数字高程模型、本地气候区域、土地利用比例、夜间灯光和 Sentinel-2 的多光谱图像以及 Open Street Map 计划的数据,为人口估计的研究提供了一个全面的数据集。
- 社交媒体帖子中检测抑郁症迹象的数据集创建及实证分析
本研究通过对社交媒体发帖进行分析,开发了一个金标准数据集,将人的抑郁水平分为 ' 未抑郁 '、' 中度抑郁 ' 和' 严重抑郁 ' 三种级别,并采用数据增强技术和机器学习算法,其中 Word2Vec 向量化技术和随机森林分类器在数据增强的模