从未标记文本到分类器:标签侦探在几小时内
本文探讨了只使用标签名训练分类模型的潜力,使用预训练的神经语言模型作为文档分类的表示学习模型,通过自学习的方式实现使用未标注数据实现对话题和情感分类超过 90% 的精确度。
Oct, 2020
使用生成的大型语言模型生成的标签对监督文本分类模型进行微调,与使用人工标注的标签相比表现相当,是一种快速、高效和经济有效的构建监督文本分类器的方法。
Jun, 2024
本研究提出了 BabbleLabble 框架,使用人类的自然语言解释来训练分类器,得到了具有可比 F1 得分的分类器。此外,针对标记函数的固有不完美性,我们发现简单的基于规则的语义解析器就足以胜任。
May, 2018
介绍了一种交互式系统 Darwin,可以协助 weakly-supervised learning 文本数据的标注规则生成。通过候选规则的自动生成和标注者的反馈机制,Darwin 可以高效地生成规则,实验结果表明 Darwin 能够比已有的方法更有效地识别出正例。
May, 2020
研究表明,使用语言模型(LMs)可以处理人类编码的文本,通过与人类编码员的比较,我们发现 GPT-3 可以达到与人类编码员相当的表现水平,这为在很多领域中应用语言模型来处理文本提供了证据。
Jun, 2023
研究使用自然语言来训练从语言中零样本学习结构化数据的分类器,并提出一个评估标准 CLUES,其包含 36 个现实世界和 144 个合成分类任务的自然语言监督。为实现此目的,开发了 ExEnt,一种基于蕴含的模型,通过学习解释来学习分类器。
Apr, 2022
提出使用选择性标注结合主动学习的方法,以简化对可预测提取的样本进行标注的成本,实验证明相比全额标注,该方法可将成本降低 10 倍同时精度不受影响,并且适用于不同领域的文档。
Oct, 2022