使用 ChatGPT 进行列类型注释

Jun, 2023

Column Type Annotation using ChatGPT

Keti Korini, Christian Bizer

TL;DR探索使用 ChatGPT 实现列类型注释，通过零或少量示范，ChatGPT 利用指令和两步注释管道的方法可以实现零样本和一次样本的 F1 分数超过 85％，达到与 RoBERTa 模型类似的精度，而后者需要 300 个示例。

Abstract

column type annotation is the task of annotating the columns of a relational table with the semantic type of the values contained in each column. Column type annotation is a crucial pre-processing step for data search

column type annotation data search data integration chatgpt knowledge graph

发现论文，激发创造

ArcheType：一个使用大型语言模型进行开源列类型注释的新框架

利用大语言模型解决无监督列类型注释问题的方法 ArcheType 在上下文抽样和标签重映射方面取得了最为显著的改进，并在零样本和微调列类型注释方面取得了最新的最佳性能。

Oct, 2023

KGLink：一种结合知识图谱和预训练语言模型的列类型注释方法

KGLink 是一种结合了 WikiData 知识图谱信息和预训练深度学习语言模型的方法，能有效地解决表格列注释中的类型粒度和有价值上下文缺失问题。

Jun, 2024

ChatGPT 优于人工工人在文本注释任务中的表现

本研究使用 2382 个推文的样本表明，ChatGPT 在多个数据标注任务方面表现优于众包工人，特别是零 - shot 准确率，且其内部编码者间一致性超过了众包工人和训练有素的注释员，而其标注成本比 MTurk 便宜二十倍左右，这些结果表明大型语言模型在文本分类方面大大提高了效率。

Mar, 2023

对 ChatGPT 文本注释和分类可靠性的测试：一则警示

该研究调查了 ChatGPT 在零 - shot 文本标注和分类任务中一致性的表现，包括模型参数、提示变化和相同输入的重复。结果显示 ChatGPT 的分类输出的一致性可能低于可靠性的科学阈值，并警告使用 ChatGPT 的谨慎性。建议进行彻底的验证，例如与人类注释数据的比较，并不推荐使用 ChatGPT 进行无监督文本标注和分类。

Apr, 2023

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

革新单细胞分析：大型语言模型在细胞类型注释中的威力

使用 ChatGPT 等大型语言模型进行单细胞数据注释是一种有效的方法，能够揭示在之前被忽视的细胞亚型特异性分化路线和关键的生物学问题，特别是在癌症进展、哺乳动物发育和干细胞分化方面的应用前景非常广阔，是单细胞分析领域的重要里程碑。

Apr, 2023

AI 中的 AI：探索 GPT 作为 AI 出版物专家注释工具的实用性

使用 GPT 聊天机器人模型进行有效的提示工程，可以将聊天机器人用作可靠的数据标注工具，从而实现基于人工智能的科学出版物的自动标注，其准确率达到 94%。用 GPT 标注的数据训练的分类器在性能上优于 arXiv 训练的模型，达到 82% 的准确率。

Mar, 2024

C3：零 - shot Text-to-SQL 技术在 ChatGPT 上的应用

本文提出了一个基于 ChatGPT 的零 - shot 文本到 SQL 的方法 ——C3，该方法在 Spider 数据集上的测试集上取得了 82.3% 的执行准确度，并成为了 Spider Challenge 的最优零 - shot 文本到 SQL 方法。C3 包括三个关键组件：Clear Prompting、Calibration with Hints 和 Consistent Output，分别对应于模型输入、模型偏差和模型输出。它为零 - shot 文本到 SQL 提供了系统性的处理方法。作者进行了广泛的实验验证了这种方法的有效性和效率。

Jul, 2023

聊天机器人不可靠的文本标注工具

对比研究发现，ChatGPT 和开源语言模型在标注社会科学研究中的文本任务中表现存在显著差异，而监督分类模型一贯表现更优，因此不建议在社会科学研究中使用 ChatGPT 进行实质性的文本标注任务。

Nov, 2023

利用 ChatGPT 作为文本标注工具进行情感分析

本研究探讨了 ChatGPT 作为数据标记工具用于不同情感分析任务中的应用，结果表明相较于基于词汇表的算法，ChatGPT 在准确性方面有了显著提高，可用于不同的事件和任务情感分析的标注工作。

Jun, 2023