通过使用事件分类法以及 BERT 中的分层注意模块,可以更准确地识别事故报告中的事件,并且该方法在细粒度预测准确性上有所提高,并且对于罕见事件的识别问题有益处。
Mar, 2024
本文发展了一个用于层次化文本分类的决策支持系统,提出了一种加权层次化相似性函数来计算主题的相关性,并使用熵来估计权重。通过与其他方法比较,该加权层次化相似性函数在主题排名准确性方面有了更好的改进。
Jun, 2024
本研究提出了一种新的自动分类缺陷报告的方法,采用自然语言处理技术对文本信息进行预处理,并综合考虑缺陷报告的意图,包括 Apache、Eclipse、Gentoo、Mozilla 等四个生态系统,使用 BERT 和 TF-IDF 技术提取特征,训练分类器后实验结果表明,我们的方法的 F-Measure 从 87.3% 提高到了 95.5%。
Aug, 2022
本研究采用机器学习技术,开发建立了一个分析框架及端到端解决方案,根据收到的事故报告,对事故清除所需时间进行预测。该方案可用于改善交通管理中心对于车祸等突发事件所导致的交通拥堵问题,有望在调派救援车辆、维修人员或激活替代路线等各项措施方面具有积极的推动作用。研究表明,与以往研究方法相比,该方案显著提高了事故预测的准确性。
Apr, 2023
通过结合自然语言处理技术与机器学习算法,我们描述了一个将银行交易描述分类为个人财务管理的新系统,在一个实际客户交易数据集上进行了训练和测试,并在与其他方法的比较中表现出较高的准确性,同时考虑了复杂性和计算时间。
本文介绍了两种旨在实现无人监督的时间关系提取方法,第一种基于弱监督机器学习方法和互联文献数据集,第二种是基于期望最大化算法和不同的技术手段,我们的实验结果表明,所提出的两种方法无需额外的注释数据即可实现从事件之间提取时间关系,并实现了比以往更高的准确性。
Jan, 2014
本文探讨了在专业领域文本分类中,预训练语言模型(PLMs)的使用是否有必要,通过比较在三个文本分类数据集上的各种模型的效果,发现对于专业领域文本分类任务,使用线性 SVM 分类器可以提供一种相当的、便宜的、可重现的、可解释的替代方案。
Mar, 2023
本文介绍了一种结构化语言模型,该模型将符号概率模型和神经网络相结合,以提高文本分类性能,并能够在自我监督的方式下学习预测组合树,仅需要原始文本和句级标签作为训练数据,从而具有一定的自我解释性。实验结果表明,本方法在下游任务中能够取得良好的预测准确性,同时预测的跨度标签与人类的推理有一定的一致性。
本文介绍了一种多变量分层结构模型,可同时建模计数生成过程和延迟机制,并可以轻松调整以适应观察计数中的欠报告存在。在对里约热内卢报告的登革热病例进行案例研究后,通过样本内和样本外后验预测模型检验以及可解释性,适应性和计算效率的讨论,比较了各种建模框架的优缺点。
Apr, 2019
本研究开发了一个分层集成模型,包括 Bert-transformer、NER、基于距离的方法和知识图谱等,以满足国际货物分类和税务评估方面的可扩展性、覆盖范围、自动化和审计要求,从而按照最标准的数值方法(Harmonized System)对未知文本描述进行分类。
Nov, 2022