Apr, 2024

SQBC: 在线政治讨论中基于 LLM 生成的合成数据的立场检测的主动学习

TL;DR通过使用 LLM 生成的合成数据,我们提供了两种不同的方法来训练和改进在线政治讨论的立场检测代理:一是通过合成数据增加微调数据集以改善立场检测模型的性能;二是基于 “Query-by-Committee” 方法提出了一种新的主动学习方法 SQBC,利用 LLM 生成的合成数据作为预测标准,选择最具信息量的未标记样本进行手动标记。综合实验证明,这两种方法都能改善立场检测性能。有趣的是,我们观察到在主动选择样本上微调可以超过使用完整数据集的性能。