冲突文本语料库的深度主动学习挖掘

Feb, 2024

Deep Active Learning for Data Mining from Conflict Text Corpora

Mihai Croicu

TL;DR利用主动学习改进机器学习模型的方法，提取与冲突动态有关的事件的子类，展现与人工编码相似的性能，同时减少了高达 99% 的人工注释需求。

Abstract

High-resolution event data on armed conflict and related processes have revolutionized the study of political contention with datasets lik

发现论文，激发创造

本文总结了政治事件数据的方法和本体，并进行一系列实验以确定深度神经网络在从新闻文本中提取政治事件方面的适用性。

Sep, 2016

本研究针对社交媒体研究中标注过程耗时，使用了基于活跃学习和众包方法的策略，评估了 4 种不同的活跃学习策略对于自动分类的影响，结果表明众包可以有效提高标注的质量，而活跃学习则有助于减少所需的推文数量。

Mar, 2020

本文提出了使用远程监督自动生成训练数据，利用结构化知识库和神经网络模型来提高事件抽取的效果的方法。通过实验结果表明，该方法可以大量生成高质量的训练数据，并且可以识别出多种类型的事件。

Dec, 2017

本文介绍了一种基于活动学习方法的独特自然语言处理方式，可以有效利用较少的标记数据点来培训神经网络，最终达到与标记数据点相同的分类准确率。通过找到局部聚类的占主导地位的集合，该方法可以选择训练的样本，具有更高的性能和灵活性，且不受数据集的影响。

Jan, 2022

本研究提出了一种新的主动学习模型，利用多视图主动学习、Parzen-Rosenblatt 窗口方法和基于预测器的委员会策略等，用于检测自然灾害的正向报道，并在四个不同应用的 Twitter 数据集上通过实验验证该模型的高一致性和优越性。

Dec, 2021

通过利用无人机技术和深度学习，希望实现老化土木基础设施的自动化视觉检测，同时提出了一种针对传统主动学习设置的新方法，用于代替传统的主动学习获取函数，实验证明其在性能和准确性方面均优于现有的方法。

Oct, 2022

本文探讨如何通过主动学习来标记共指关系，比较了不同的不确定性采样策略和文档阅读成本，并发现在同一文档中标注跨度比在多个文档中标注跨度更加有效。研究结果有助于更加实际地开发共指关系解析模型。

Apr, 2021

本文提出了第一个基于多样性原则的主动学习查询策略来缓解抽象文本摘要中昂贵的注释成本，并分析了自学习的效果。该策略可以帮助提高 ROUGE 和一致性分数。

Jan, 2023

本研究提出一种将机器学习与众包数据库结合的主动学习算法，以实现众包应用程序的可扩展性，并通过实验证明：相比于以往的主动学习方案，我们的方法平均只需要人类标记 1-2 个数量级的数据集就能实现与随机采样相同的精度。

Sep, 2012

本文探讨了使用主动学习技术对无限数据流进行交互式神经机器翻译的应用，并提出了两种选择样本的新方法。我们的实验表明，将主动学习技术集成到翻译系统中可在增加翻译质量的同时降低所需的人力工作量，并使人力工作量达到一定的翻译质量平衡。此外，我们的神经系统表现明显优于传统方法。

Jul, 2018