主动学习器的脆弱性
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
通过模拟现有标记的数据集作为未标记的数据池,探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响,提出在实际数据中测试的方法可能提供更加真实的算法效果下限,同时呼吁定义主动学习最佳实践。
May, 2023
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
本研究探讨主动学习策略在降低时序分类任务中所需标记数据数量方面的应用,通过提出一种新的类平衡实例选择算法,有效地解决了不平衡时序数据集中的分类性能和实例选择偏差问题,并在触觉纹理识别和工业故障检测领域证明了该方法的有效性。
May, 2024
本文旨在探讨如何通过主动学习(AL)技术实现更高效的标签操作的问题,其中包括一些在目前文献中存在的问题,如数据增强方法和 SGD 等常见方法的应用等,通过在图像分类中新的开源 AL 工具 DISTIL 的统一重新实现,我们研究了这些问题,并提出了一些第一手的洞察,以供 AL 从业者在未来的工作中参考。
Jun, 2021
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024