- 深度学习与基于 LLM 的方法应用于恒星光变曲线分类
利用机器学习深度学习技术,本研究评估了基于深度学习和大型语言模型的自动分类变星光变曲线模型的性能,并在天文学应用中展示了高准确率和多模态模型的发展。
- 基于钻探数据的岩体分类的机器学习方法比较研究
通过自动将 MWD 数据转换为可操作的岩石工程指标,本研究利用大规模且地质多样化的数据集,探索传统机器学习和基于图像的深度学习方法,在真实的隧道工程环境中实现准确的岩体质量分类,提供决策支持及降低人工干预。
- 用于生成意大利语复杂概念描述的领域嵌入
提出了一种分布语义资源,该资源包含从电子词典提取的语言和词汇信息,通过领域特定的共现矩阵来桥接分布向量和一般语义理论之间的差距,并通过两个实验验证了该资源的有效性,实现了动物名词的自动分类和特征提取。
- COLING条款与条件合同中相关条款的注释与分类
该研究使用新的注释方案,将条款与条件合同中的不同类型从句子进行分类,旨在帮助法律专家快速识别和评估此类型法律文件中的问题。研究结果表明,通过在多语言 T5 和两种意大利 BERT 模型上进行少样本预训练,可以实现对分类的自动化,精度在 0. - 检测非人言论的数据集
本文介绍了两个包含政治言辞和电影字幕对话的数据集,分别是一个大型自动收集的语料库和一个较小的手动标注数据集,这些数据集能为我们提供广泛且多样的去人性化数据,从而实现进一步的探索性分析和自动分类的去人性化模式。同时,这两个数据集将公开发布。
- 天体物理 X 射线源的无监督机器学习分类
通过无监督机器学习方法,我们为 Chandra Source Catalog 的源提供了概率分类,并展示了该方法在识别年轻恒星物体的发射以及区分小尺度和大尺度紧凑吸积源方面的成功,为这种概率分类器提供了可解释性。
- 利用机器学习进行枣树病害识别
通过采用 Lab 颜色特征、统计特征和离散小波变换纹理特征,以及常见分类器(随机森林、多层感知器、朴素贝叶斯和模糊决策树),本研究提出了一种基于混合特征的方法,用于早期检测和分类棕榈枣水果疾病。
- WikiSQE:维基百科句子质量评估的大规模数据集
提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE,包含了约 340 万句子和 153 个质量标签,并通过机器学习模型进行了实验自动分类,显示具有引文、句法 / 语义或命题问题的句子更难以检测,该数据集在自动化的文章 - EMNLP句子二义性、语法准确性和复杂性探测
本文研究预训练语言模型在捕捉语言学细微特征上的表现,分析了特征分类的可行性和模式,并提出警示,即不应使用表面水平数据集进行探测,应与基准线进行仔细比较,不应使用 t-SNE 图来确定向量表示中的特征是否存在。此外,本文展示了特征在这些模型的 - 基于多文本信息和报告意图的 Bug 报告自动分类
本研究提出了一种新的自动分类缺陷报告的方法,采用自然语言处理技术对文本信息进行预处理,并综合考虑缺陷报告的意图,包括 Apache、Eclipse、Gentoo、Mozilla 等四个生态系统,使用 BERT 和 TF-IDF 技术提取特征 - MM威胁分析:使用分层神经网络对 CVE2CWE 进行分类
本文介绍了第一个自动将 CVE 分类到 CWE 的工具 ——ThreatZoom,它利用一种新颖的学习算法,该算法采用自适应层次神经网络,基于文本分析分数和分类错误进行权重调整,通过从 CVE 的描述中提取的统计和语义特征自动估计 CWE - MMTor 暗网中可疑内容的分类
本文探讨了利用语义关注关键点过滤自动分类暗网图像的方法,并在定制的 Tor 图像数据集上使用该方法测试,与 CNN 特征和 BoVW 方法相比,达到了高达 87.98% 的准确率,是一种较为有效的方式。
- MMTwitter 上的 Memes 的语义搜索
本文提出了并比较了几种用于自动分类表情包图像的方法,并提供了一种查询表情包的方法。该方法使用文本查询从大量的标注数据集中检索表情包,然而,虽然其中一些被评估的方法是有效的,但仍有改进的空间。
- 可扩展的端到端循环神经网络用于变星分类
本文提出了一种基于深度学习的、端到端的自动变星分类算法,通过将光变曲线转化成矩阵表示来学习特征并实现自动分类,取得了与随机森林分类器相当的准确率,但计算速度更快、可扩展性更强。
- MM大规模 Tractography 数据集的纤维束分割并行优化
本文提出了一种基于多学科纤维捆束图谱的优化算法,实现了自动分类白质纤维的功能。新算法通过并行处理和本地内存的利用对旧版算法进行了优化,能够更快速地分析更大规模的数据集,从而提高了处理速度和降低了内存占用率。
- 丹麦的攻击性语言和仇恨言论检测
针对社交媒体上存在的具有攻击性的语言问题,本研究使用自动分类系统,构建了丹麦数据集,开发了适用于英语和丹麦语的自动分类系统,并对不同种类和目标的攻击性语言进行了检测,包括仇恨言论和网络欺凌。
- 使用集成方法对专利申请进行分类
使用 ALTA 2018 共享任务提供的已注释数据集,我们提供了自动分类专利申请的方法。通过多种方法的测试,利用 SVM 集成使用单词和字符组合作为特征,最佳结果在 14 支队伍中排名第一的 0.778 微平均 F1 - 值实现了将专利申请 - 基于 N-gram 和 TFIDF 的机器学习方法在 Twitter 上检测仇恨言论和攻击性语言
本文提出了一种利用机器学习方法,针对推特中的恶意信息、攻击性言论以及清晰文本进行分类的方法,并通过比较实验,得出了最高达 95.6% 准确率的分类模型,同时还开发了中间模块使用户可以方便地访问此工具。
- MMBACH:乳腺癌组织学图像大挑战赛
利用组织学图像的自动分类方法可以提高乳腺癌的诊断准确性,并通过组织学图像的自动分类的算法进一步推进形态学领域的发展。本文评估了在大型数据集上集成卷积神经网络的方法,将其用于在乳腺癌图片的分类问题,并在自动分类的准确性方面取得了一定的进展。
- EMNLP使用主题模型和情感强度分类习语和字面表达
本文提出了一个用于自动分类习语和字面表达的算法,通过利用 LDA 无监督聚类方法和情感分析技术,采用词袋表示法来提取包含习语和字面表达的段落中的主题,从而实现对习语和字面表达的区分。