基于F度量预测变化的文本分类主动学习停止策略
这篇论文首次对基于稳定预测的主动学习进行了理论分析,并揭示了该方法成功的三个关键因素: Cohen的Kappa一致性、未标记的停用集和Kappa样本估计。
Apr, 2015
本文研究了主题“主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
本文探讨了三种不同的数据源在确定何时终止有标注数据的主动学习过程中的优缺点,研究发现使用未标注数据的停止方法比使用已标注数据的方法更有效。
Jan, 2019
本文介绍利用主动学习通过提供可行建议,确定适合特定现实情景的停止标准以减少标注成本的方法。作者提出了大规模的停止标准比较,使用成本测量来量化准确性/标签交换,并提供了所有停止标准的公共实现和一个开源框架。
Oct, 2021
本研究探讨文本分类的主动学习领域中的不同收集函数,并开发了一种用于未标记数据的预期分数变化向量的多样性的批量主动学习算法,最后结合集成式学习和动态验证集构建证明BEMPS的mean square error和log probability收集函数的优越表现。
Oct, 2021
本研究探究了不同的停止集选择对不同停止方法的影响,结果表明,停止算法的性能取决于停止集的选择,其中,基于稳定预测的停止方法的性能要强于基于置信度的停止方法,并且原始作者提出的无偏代表性停止集比最近发布的工作中使用的系统偏倚停止集表现更好,这些发现有助于阐明停止方法的这一重要方面的影响,这一方面在最近的发布工作中被忽视了,但对于重要的语义计算应用,如技术辅助审查和文本分类等,它对性能的影响可能很大。
Jan, 2022
本文介绍了一种新型迭代式快速文本分类模型训练平台FASL,将few-shot learning和active learning两种方法相结合,探究了哪种主动学习方法在few-shot setup中的效果最佳,还开发了一个模型来预测何时停止标注。
Apr, 2022