结合计数过程和分类技术,改进技术辅助审阅的终止规则
比较了二进制和词频特征加权方法在文本分类中的效果,结果表明,在去除停用词的情况下,词频特征加权方法在准确率、召回率和 F-Measure 方面优于二进制方法,而在精确率方面两种方法的结果非常相似。此外,数据还清楚地表明,使用相同的短语加权方法,去除停用词可以提高分类准确性。
Feb, 2024
本研究使用文本分类和机器学习方法,研究法律专业人员的支持应用。通过实验研究法国最高法院的判决和案件所属法律领域的高准确度预测,发现判决作出的时间对案例描述的形式和数据蒙版的使用会有影响,研究了多个支持向量机分类器的平均概率集成系统,平均 F1 值为 98%,预测案例判决,96% F1 值用于预测案件的法律领域,对于估计判决日期的 F1 值为 87.07%。
Oct, 2017
该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集,针对九种非洲语言和法语,探讨了文本分类在自然语言处理(NLP)中简化停用词提取的作用。研究结果显示,文本分类能够有效识别领域无关的停用词,成功检测率超过 80%,但由于语言差异,某些语言的检测率较低。此外,研究还发现,尽管超过 40%的停用词在不同新闻类别中都有,但只有不到 15%的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度,但它们是否被归类为停用词则取决于上下文。因此,将统计和语言方法相结合可以创建全面的停用词列表,凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理,并强调了文本分类在停用词提取中的重要性。
Jan, 2024
本文提出了一种叫做 TCSum 的新型摘要系统,它借助丰富的文本分类数据来改善多文档摘要的性能,通过将文档映射到分布式表示,利用分类结果来生成不同风格的摘要。实验结果表明,TCSum 在通用多文档摘要数据集上实现了最先进的性能,并具有在不同文本类别的情况下捕捉摘要样式变化的能力。
Nov, 2016
研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法,结果表明:基于关键词列表的检索方法容易出现偏见,而主动有监督学习方法在使用合适数量的已标记训练实例时,能够显著提高检索效果。
May, 2022
本文研究利用不同数据驱动系统之间的建模差异探讨如何应用投票策略和二级分类器来结合不同系统的输出,以提高词性标注任务的准确性,实验表明各种结合策略的标注器均优于它们的最佳组件,其中最佳组合标注器的错误率比最佳单个标注器低了 19.1%。
Jul, 1998
结合自然语言处理和机器学习的可解释法律文本分类系统,对决策的特征和决策路径进行分析并以自然语言形式呈现,实现模型决策的可理解性。该系统在法律类别上的实验结果表明,其分类性能具有竞争力,准确度值超过 90%,并且自动解释能够被非专业用户轻松理解。
Mar, 2024
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
本文提出了一个理论上有保证的学习框架,用于无标签文档的分类问题,该框架可以灵活选择模型,并且有效地优化了接收器操作特征曲线下的面积,并在基准数据集上展示了其有效性。
Oct, 2019