使用 ChatGPT 进行列类型注释
利用大语言模型解决无监督列类型注释问题的方法 ArcheType 在上下文抽样和标签重映射方面取得了最为显著的改进,并在零样本和微调列类型注释方面取得了最新的最佳性能。
Oct, 2023
KGLink 是一种结合了 WikiData 知识图谱信息和预训练深度学习语言模型的方法,能有效地解决表格列注释中的类型粒度和有价值上下文缺失问题。
Jun, 2024
本研究使用 2382 个推文的样本表明,ChatGPT 在多个数据标注任务方面表现优于众包工人,特别是零 - shot 准确率,且其内部编码者间一致性超过了众包工人和训练有素的注释员,而其标注成本比 MTurk 便宜二十倍左右,这些结果表明大型语言模型在文本分类方面大大提高了效率。
Mar, 2023
该研究调查了 ChatGPT 在零 - shot 文本标注和分类任务中一致性的表现,包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值,并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证,例如与人类注释数据的比较,并不推荐使用 ChatGPT 进行无监督文本标注和分类。
Apr, 2023
本文提出了一个名为 ColNet 的神经网络列类型注释框架,它能够集成知识库推理和查找,自动训练卷积神经网络进行预测,不仅考虑了单元格内上下文语义,还从多个单元格中学习了列语义的局部特征,并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估,并取得了比最先进方法更高的性能。
Nov, 2018
使用 ChatGPT 等大型语言模型进行单细胞数据注释是一种有效的方法,能够揭示在之前被忽视的细胞亚型特异性分化路线和关键的生物学问题,特别是在癌症进展、哺乳动物发育和干细胞分化方面的应用前景非常广阔,是单细胞分析领域的重要里程碑。
Apr, 2023
使用 GPT 聊天机器人模型进行有效的提示工程,可以将聊天机器人用作可靠的数据标注工具,从而实现基于人工智能的科学出版物的自动标注,其准确率达到 94%。用 GPT 标注的数据训练的分类器在性能上优于 arXiv 训练的模型,达到 82% 的准确率。
Mar, 2024
本文提出了一个基于 ChatGPT 的零 - shot 文本到 SQL 的方法 ——C3,该方法在 Spider 数据集上的测试集上取得了 82.3% 的执行准确度,并成为了 Spider Challenge 的最优零 - shot 文本到 SQL 方法。C3 包括三个关键组件:Clear Prompting、Calibration with Hints 和 Consistent Output,分别对应于模型输入、模型偏差和模型输出。它为零 - shot 文本到 SQL 提供了系统性的处理方法。作者进行了广泛的实验验证了这种方法的有效性和效率。
Jul, 2023
对比研究发现,ChatGPT 和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异,而监督分类模型一贯表现更优,因此不建议在社会科学研究中使用 ChatGPT 进行实质性的文本标注任务。
Nov, 2023
本研究探讨了 ChatGPT 作为数据标记工具用于不同情感分析任务中的应用,结果表明相较于基于词汇表的算法,ChatGPT 在准确性方面有了显著提高,可用于不同的事件和任务情感分析的标注工作。
Jun, 2023