抽象文本摘要的主动学习
使用大型语言模型(GPT-3.5 和 GPT-4)进行标注,研究了主动学习中减少标注成本和采样效率的方法。采用混合注释策略,将可能标注错误的样本与人工注释相结合,可以在 AG 新闻和腐烂的番茄等数据集上取得与人工注释相似甚至更好的结果,证明了大型语言模型在主动学习中的准确性和成本效益。
Jan, 2024
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023
该研究提出了一种新的主动学习框架,通过加入自然语言解释生成模型,实现在低资源条件下减少标签和解释注释的人工成本,并提升了决策方案生成的效果。
May, 2023
通过模拟现有标记的数据集作为未标记的数据池,探索了主动学习算法的评估与验证过程中存在的挑战及被忽略的因素对研究结果的影响,提出在实际数据中测试的方法可能提供更加真实的算法效果下限,同时呼吁定义主动学习最佳实践。
May, 2023
利用主动学习训练策略可以建立一个问题回答模型,以更小的注释成本实现,该策略选择最具信息量的未标记训练数据以有效地更新模型,该研究提出一种基于扰动的主动学习采集策略,并证明其比现有常用策略更有效。
Nov, 2023
利用主观自然语言处理任务进行准确的人类判断的关键是在注释过程中纳入广泛的视角。引入了注释者中心主动学习策略 (ACAL),结合数据采样和注释者选择策略,旨在高效地近似获取人类判断的全面多样性,并使用注释者中心度量评估模型性能。对于七个主观自然语言处理任务进行了多种注释者选择策略的实验,同时采用了传统和新颖的以人为中心的评估指标。结果表明,ACAL 提高了数据效率并在注释者中心度量评估中表现出色,但其成功仍取决于足够大而多样的注释者样本池的可用性。
Apr, 2024