AdaTyper：自适应语义列类型检测

Nov, 2023

AdaTyper: Adaptive Semantic Column Type Detection

Madelon Hulsebos, Paul Groth, Çağatay Demiralp

TL;DRAdaTyper 使用混合类型预测器，结合基于规则和轻量级机器学习模型，通过弱监督方法和最少的人工反馈，在推理时针对新的语义类型和数据分布变化进行自适应，能显著提高新型和已有类型的 f1-score。

Abstract

Understanding the semantics of relational tables is instrumental for automation in data exploration and preparation systems. A key source for understanding a table is the →

relational tables semantics deep learning adatyper adaptation

发现论文，激发创造

Sherlock: 一种深度学习方法用于语义数据类型检测

本研究提出了 Sherlock，一种利用深度学习进行语义类型检测的多输入模型，并从 VizNet 语料库中训练出此模型，并取得了良好的检测效果，支持重量级 F1 得分高达 0.89。

May, 2019

学习表格数据的语义注释

本研究采用深度学习方法，通过利用表格的上下文语义特征和知识库查询算法，实现了对没有元数据的表格的列类型预测，不仅在单独的表格集上表现良好，转移学习到其他表格集也有良好的性能。

May, 2019

ColNet: 嵌入 Web 表格的语义，预测列类型

本文提出了一个名为 ColNet 的神经网络列类型注释框架，它能够集成知识库推理和查找，自动训练卷积神经网络进行预测，不仅考虑了单元格内上下文语义，还从多个单元格中学习了列语义的局部特征，并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估，并取得了比最先进方法更高的性能。

Nov, 2018

ArcheType：一个使用大型语言模型进行开源列类型注释的新框架

利用大语言模型解决无监督列类型注释问题的方法 ArcheType 在上下文抽样和标签重映射方面取得了最为显著的改进，并在零样本和微调列类型注释方面取得了最新的最佳性能。

Oct, 2023

图神经网络方法用于表格中的语义类型检测

这项研究解决了在关系表中检测语义列类型的挑战，提出了一种使用图神经网络的新方法，既改进了预测准确度，又允许语言模型聚焦于不同关系表的信息，并在语义类型检测方面优于现有的算法。

Apr, 2024

TypeSQL: 基于知识的类型感知神经网络文本到 SQL 生成

本文提出了一种新方法 TypeSQL，通过将问题转换为插槽填充任务，并利用类型信息来更好地理解自然语言问题中的稀有实体和数字，从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法，比现有技术提高了 5.5％的性能。同时，利用数据库内容进行访问可以显著提高用户查询的性能，TypeSQL 的准确度为 82.6％，相对于之前的内容敏感模型提高了 17.5％。

Apr, 2018

OptTyper：通过优化逻辑约束和自然约束进行概率类型推断

该研究提出了一种概率类型推理框架，在 TypeScript 文件中预测缺失的类型。该框架将来自类型系统的逻辑约束与来自命名约定的深度学习模型提取的自然约束相结合，优于先前使用单一信息的模型。

Apr, 2020

增强数据流分析的学习类型推断

CodeTIDAL5 是一种基于 Transformer 的模型，用于可靠地预测类型注释，并从程序的代码属性图中提取使用片段，其在 ManyTypes4TypeScript 基准测试上优于当前最先进的神经类型推理系统 7.85％，总体准确率达到 71.27％。

Oct, 2023

通过增加话语上下文和自适应分类阈值进行细粒度实体类型划分

本文提出了一种神经架构模型，用于将 fine-grained 语义类型分配给实体提及，并学习利用比以前更多的语义上下文信息（文档和句子级别）的分布式语义表示。实验结果表明，该方法在三个基准数据集上取得了最先进的结果，而不需要手工特征。

Apr, 2018

引入标签关系归纳偏置来进行极细粒度实体类型推断

本文提出了一种新的标签关系归纳偏好，利用图传播层有效编码全局标签共现统计和单词级别相似性，结合基于注意力的匹配模块，可以在包括超过 10,000 种自由形式类型的大型数据集上实现更高的召回分数，并且在输出的稳定性方面也更少不一致性。

Mar, 2019