- 利用大型语言模型增强临床笔记中的表型识别:PhenoBCBERT 和 PhenoGPT
通过基于 Transformer 结构的大型语言模型(LLMs),我们可以自动检测临床表型术语,包括未记录在 HPO 中的术语。在本研究中,我们开发了两种模型:PhenoBCBERT,一种基于 BERT 的模型,利用 Bio+Clinica - 乳腺癌筛查乳腺 X 线摄影检测
乳腺癌是导致癌症相关死亡的主要原因,但目前的计划成本高且容易出现误报,导致不必要的随访和患者焦虑。本文提出了一种自动乳腺癌检测的解决方案,旨在提高筛查计划的效率和准确性。该研究对 RSNA 数据集中的射线乳腺图片进行了不同的方法测试,约有 - KDD基于神经模型的事实不一致分类及解释
本文提出一种基于物理学的方法,正式定义了文本中五种事实不一致的类型,并依此将一些文章注释为数据集。我们使用这个数据集来训练一个神经模型,以预测在 (索赔、上下文) 句对中的矛盾类型和矛盾实体类型 (当矛盾是由实体引起时)
- 安全应用中 X 射线图像非法物品检测
本文提出了一种改进的基于深度神经网络的自动化 X 射线图像检测方法,通过使用更高效的框和修改默认 NMS 算法实现更准确的物体检测,突显了大数据分析在提高公共安全方面的潜力。
- 优化流动动力学的深度学习方法以提高视网膜底图像分类
通过卷积神经网络对糖尿病视网膜病变图像进行自动化检测和特征提取,利用这些特征在机器学习分类器中建立模型,提高检测及诊断水平。
- 反犹信息?高质量注释指南和推文标注数据集指南
构建了一个进行反犹太主义言论自动检测的标注过的数据集,该数据集通过有关关键词,并给予标注人员对一个常用定义的反犹太主义进行刻意强制应用来涵盖广泛的讨论主题,并包括 1250 条符合国际大屠杀纪念联盟关于反犹太主义的定义,并且未被错误标记的推 - 基于规则的德国教育培训访问检测
该研究介绍了一种自动检测德国培训机构和广告招聘中与职业培训有关的学历、职业经验、前往学徒和技能等要求的新方法,以更好地匹配培训的需求和提供,该方法将多种方法相结合,并提供了教育同义词的映射和基于规则匹配的方法。
- ICLR利用轻量级神经网络提高极端天气事件检测能力
我们尝试优化一种新型轻量级上下文引导的卷积神经网络,通过对特征处理、数据增强、损失函数和架构的修改,提高对气候数据中的热带气旋和大气河流的语义分割,尤其着重于最具破坏性的天气现象 —— 热带气旋的检测,采用加权损失函数以改善珍稀事件的类别不 - 自动识别不同来源之间自我承认技术债务之间的关系
通过自动检测不同来源中的自承技术债务之间的关系与特征,可以改进和管理自承技术债务。在 103 个开源项目中,我们描述了 9 种主要的有关自承技术债务关系的情况,并对 26 种关系进行了量化概述。
- 用于辨识论据背后的人类价值观的 Touché23-ValueEval 数据集
我们提出了 Touché23-ValueEval 数据集,用于识别论据背后的人类价值观,并通过自动化检测方法,从 6 个不同源头的 9324 个论点中收集数据。该数据集相对于之前的数据集表现更好,尽管标签分布使分类难度增加,但更大的数据集可 - 跨平台跨领域监督对比学习下的滥用语言检测
本文旨在解决不同在线平台上滥用语言的检测问题,提出了一种基于 SCL-Fish 的监督对比学习集成元学习算法,具有领域泛化目标并比先前的算法更加高效和优越。
- 运用有说服力的写作策略进行虚假信息检测
本研究旨在利用自然语言处理技术,通过对语言文本中的说服写作技巧进行分类,进一步提高自动化的谣言检测的准确性与可理解性。通过利用 RoBERTa 模型的高性能,本研究提出了多种基于语言模型的基准测试,研究表明标注分类的数据可以提高谣言检测的准 - VALDO 在哪里?MICCAI 2021 年血管病变检测和分割挑战
该研究在国际医学影像处理和计算机辅助干预会议上举办的一个挑战赛中,提出了自动检测和分割脑部微小血管疾病成像标记的方法,尤其是对于 EPVS 和微出血的表现良好,但对于来自血管假定的干区缺损的实用性结果尚不明确。
- 社交媒体上的误导性关键字和隐含滥用语:显而易见的背后
该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响,着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题,并提供解决这三个问题的未来研究建议。
- 在桥底下寻找巨魔:一个图像模式检测器的初步工作
本文初步报告了一项关于自动检测民间传说中的 Motifs 的系统开发,其中包括用于训练的标记工作、在建构架构中设计用于捕捉 Motifs 的关键特征、和测试案例的测量结果,进一步证明 Motifs 的重要性以及其在文化认知领域自动化处理的潜 - 自动检测 Twitter 上的 Doxing 行为
本文就如何在 Twitter 上自动检测敏感私人信息的二级和三级泄露,即 doxing 进行了探讨和分析,经对 9 种不同方法进行实验和比对,利用上下文编码字符串嵌入表征的方法取得了 96.86% 的准确性和 97.37% 的召回。
- 使用可靠来源的交叉检查实现自动假新闻检测
本研究利用自然语言处理和机器学习技术,开发出一种自动化检测虚假新闻的方法,该方法能够对推特上发布的内容进行检测,从可靠的新闻机构中获取相关信息,并使用随机森林模型进行分类,取得了 70%的准确率, 这为虚假新闻检测提供了一种更加敏感和自然的 - Hatemoji:面向基于表情符号的仇恨的基准测试套件和对抗生成的数据集
介绍了 HatemojiCheck 和 HatemojiBuild 测试套件,用于评估 emoji 表情符号表达的仇恨言论的检测性能。HatemojiBuild 数据集可以将人和模型相结合创建的敌对示例用于构建模型,提高检测 emoji 表 - 跨域多模态数据在假新闻检测中应用:接纳领域差异
本研究介绍了一种新的自动检测跨领域新闻中虚假消息的技术,该技术整合了领域特定和跨领域知识,并利用一种无监督的选择性注释技术来减少标注成本,并在跨领域的新闻数据集上实现了最先进的性能。
- ICMLDeL-haTE: 偏见言论检测的深度学习可调整集成模型
针对社交媒体上在线仇恨言论问题,提出了一种基于集成深度学习模型的新框架,包括对未标记数据集的自动分类、调整因子和弱监督学习方法,可有效提高依恋集等小众平台的恶意言论检测率。