从未标记文本到分类器：标签侦探在几小时内

EMNLPAug, 2022

从未标记文本到分类器：标签侦探在几小时内

Label Sleuth: From Unlabeled Text to a Classifier in a Few Hours

Eyal Shnarch, Alon Halfon, Ariel Gera, Marina Danilevsky, Yannis Katsis...

TL;DR介绍了 Label Sleuth—— 一种免费、开源的文本分类器，支持无代码系统，可帮助非专业人士进行自定义文本分类，满足了许多现实场景的需求。

Abstract

text classification can be useful in many real-world scenarios, saving a lot of time for end users. However, building a custom classifier typically requires coding skills and ML knowledge, which poses a significant barrier for many potential users. To lift this barrier, we introduce

text classification label sleuth nlp no-code system open source

发现论文，激发创造

自动识别可用作少样本文本分类标签的单词

本文提出一种自动标签到单词映射的方法，通过少量的训练数据，为 few-shot 文本分类任务的处理提供了更高效的方法。

Oct, 2020

仅使用标签名称的文本分类：基于语言模型的自训练方法

本文探讨了只使用标签名训练分类模型的潜力，使用预训练的神经语言模型作为文档分类的表示学习模型，通过自学习的方式实现使用未标注数据实现对话题和情感分类超过 90% 的精确度。

Oct, 2020

自动注释中的知识蒸馏：由 LLM 生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

开放领域的主题分类

本论文介绍了一种开放领域的主题分类系统，能够在实时接受用户自定义层次结构并通过零样本学习利用预训练语言模型来分类文本片段，并在多个领域数据集上进行了评估。

Jun, 2023

使用自然语言说明训练分类器

本研究提出了 BabbleLabble 框架，使用人类的自然语言解释来训练分类器，得到了具有可比 F1 得分的分类器。此外，针对标记函数的固有不完美性，我们发现简单的基于规则的语义解析器就足以胜任。

May, 2018

文本数据标记的自适应规则发现

介绍了一种交互式系统 Darwin，可以协助 weakly-supervised learning 文本数据的标注规则生成。通过候选规则的自动生成和标注者的反馈机制，Darwin 可以高效地生成规则，实验结果表明 Darwin 能够比已有的方法更有效地识别出正例。

May, 2020

自训练的零样本文本分类

本文提出一种基于自训练方法的插入式零样本文本分类技术，无需领域专业知识或经验，仅需要类别标签和无标记数据，可显著提高性能，适用于各种文本分类任务。

Oct, 2022

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

CLUES: 使用自然语言解释学习分类器的基准

研究使用自然语言来训练从语言中零样本学习结构化数据的分类器，并提出一个评估标准 CLUES，其包含 36 个现实世界和 144 个合成分类任务的自然语言监督。为实现此目的，开发了 ExEnt，一种基于蕴含的模型，通过学习解释来学习分类器。

Apr, 2022

基于视觉丰富的文档提取模型数据标注成本的显著降低

提出使用选择性标注结合主动学习的方法，以简化对可预测提取的样本进行标注的成本，实验证明相比全额标注，该方法可将成本降低 10 倍同时精度不受影响，并且适用于不同领域的文档。

Oct, 2022