结合计数过程和分类技术，改进技术辅助审阅的终止规则

EMNLPDec, 2023

结合计数过程和分类技术，改进技术辅助审阅的终止规则

Combining Counting Processes and Classification Improves a Stopping Rule for Technology Assisted Review

Reem Bin-Hezam, Mark Stevenson

TL;DR利用文本分类器推导信息，扩展了一种有效的停止规则，可以在多个数据集上提高性能并优于其他方法。

Abstract

technology assisted review (TAR) stopping rules aim to reduce the cost of manually assessing documents for relevance by minimising the number of documents that need to be examined to ensure a desired level of recall. This paper extends an effective stopping rule using information deriv

technology assisted review tar stopping rules text classifier data sets performance improvement

发现论文，激发创造

使用带或不带停用词移除的术语加权方法对阿拉伯文本分类的影响

比较了二进制和词频特征加权方法在文本分类中的效果，结果表明，在去除停用词的情况下，词频特征加权方法在准确率、召回率和 F-Measure 方面优于二进制方法，而在精确率方面两种方法的结果非常相似。此外，数据还清楚地表明，使用相同的短语加权方法，去除停用词可以提高分类准确性。

Feb, 2024

探索文本分类在法律领域的应用

本研究使用文本分类和机器学习方法，研究法律专业人员的支持应用。通过实验研究法国最高法院的判决和案件所属法律领域的高准确度预测，发现判决作出的时间对案例描述的形式和数据蒙版的使用会有影响，研究了多个支持向量机分类器的平均概率集成系统，平均 F1 值为 98％，预测案例判决，96％ F1 值用于预测案件的法律领域，对于估计判决日期的 F1 值为 87.07％。

Oct, 2017

文本分类可增强领域无关的停用词提取

该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集，针对九种非洲语言和法语，探讨了文本分类在自然语言处理（NLP）中简化停用词提取的作用。研究结果显示，文本分类能够有效识别领域无关的停用词，成功检测率超过 80％，但由于语言差异，某些语言的检测率较低。此外，研究还发现，尽管超过 40％的停用词在不同新闻类别中都有，但只有不到 15％的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度，但它们是否被归类为停用词则取决于上下文。因此，将统计和语言方法相结合可以创建全面的停用词列表，凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理，并强调了文本分类在停用词提取中的重要性。

Jan, 2024

通过文本分类改进多文档摘要

本文提出了一种叫做 TCSum 的新型摘要系统，它借助丰富的文本分类数据来改善多文档摘要的性能，通过将文档映射到分布式表示，利用分类结果来生成不同风格的摘要。实验结果表明，TCSum 在通用多文档摘要数据集上实现了最先进的性能，并具有在不同文本类别的情况下捕捉摘要样式变化的能力。

Nov, 2016

在检索相关文档的分析上，解决不平衡分类问题的方法比较

研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法，结果表明：基于关键词列表的检索方法容易出现偏见，而主动有监督学习方法在使用合适数量的已标记训练实例时，能够显著提高检索效果。

May, 2022

通过系统组合提高数据驱动的词类标注

本文研究利用不同数据驱动系统之间的建模差异探讨如何应用投票策略和二级分类器来结合不同系统的输出，以提高词性标注任务的准确性，实验表明各种结合策略的标注器均优于它们的最佳组件，其中最佳组合标注器的错误率比最佳单个标注器低了 19.1%。

Jul, 1998

基于树估计器的依区域法类别对西班牙法律裁决的自动解释

结合自然语言处理和机器学习的可解释法律文本分类系统，对决策的特征和决策路径进行分析并以自然语言形式呈现，实现模型决策的可理解性。该系统在法律类别上的实验结果表明，其分类性能具有竞争力，准确度值超过 90%，并且自动解释能够被非专业用户轻松理解。

Mar, 2024

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

仅从相关关键词和未标记文档中学习

本文提出了一个理论上有保证的学习框架，用于无标签文档的分类问题，该框架可以灵活选择模型，并且有效地优化了接收器操作特征曲线下的面积，并在基准数据集上展示了其有效性。

Oct, 2019

何时略读何时深度阅读的学习

本文介绍了两种方法以提高情感分类任务的计算效率：概率阈值方法和使用次级决策网络方法。实验表明，这两种方法都可以显著减少计算量并提高效率。

Dec, 2017