AdaTyper:自适应语义列类型检测
本研究提出了 Sherlock,一种利用深度学习进行语义类型检测的多输入模型,并从 VizNet 语料库中训练出此模型,并取得了良好的检测效果,支持重量级 F1 得分高达 0.89。
May, 2019
本研究采用深度学习方法,通过利用表格的上下文语义特征和知识库查询算法,实现了对没有元数据的表格的列类型预测,不仅在单独的表格集上表现良好,转移学习到其他表格集也有良好的性能。
May, 2019
本文提出了一个名为 ColNet 的神经网络列类型注释框架,它能够集成知识库推理和查找,自动训练卷积神经网络进行预测,不仅考虑了单元格内上下文语义,还从多个单元格中学习了列语义的局部特征,并在基于 DBPedia 和两个不同的 Web 表格数据集上进行了评估,并取得了比最先进方法更高的性能。
Nov, 2018
利用大语言模型解决无监督列类型注释问题的方法 ArcheType 在上下文抽样和标签重映射方面取得了最为显著的改进,并在零样本和微调列类型注释方面取得了最新的最佳性能。
Oct, 2023
这项研究解决了在关系表中检测语义列类型的挑战,提出了一种使用图神经网络的新方法,既改进了预测准确度,又允许语言模型聚焦于不同关系表的信息,并在语义类型检测方面优于现有的算法。
Apr, 2024
本文提出了一种新方法 TypeSQL,通过将问题转换为插槽填充任务,并利用类型信息来更好地理解自然语言问题中的稀有实体和数字,从而实现了通过自然语言与关系型数据库进行交互。在 WikiSQL 数据集上测试该方法,比现有技术提高了 5.5%的性能。同时,利用数据库内容进行访问可以显著提高用户查询的性能,TypeSQL 的准确度为 82.6%,相对于之前的内容敏感模型提高了 17.5%。
Apr, 2018
该研究提出了一种概率类型推理框架,在 TypeScript 文件中预测缺失的类型。该框架将来自类型系统的逻辑约束与来自命名约定的深度学习模型提取的自然约束相结合,优于先前使用单一信息的模型。
Apr, 2020
CodeTIDAL5 是一种基于 Transformer 的模型,用于可靠地预测类型注释,并从程序的代码属性图中提取使用片段,其在 ManyTypes4TypeScript 基准测试上优于当前最先进的神经类型推理系统 7.85%,总体准确率达到 71.27%。
Oct, 2023
本文提出了一种神经架构模型,用于将 fine-grained 语义类型分配给实体提及,并学习利用比以前更多的语义上下文信息(文档和句子级别)的分布式语义表示。实验结果表明,该方法在三个基准数据集上取得了最先进的结果,而不需要手工特征。
Apr, 2018
本文提出了一种新的标签关系归纳偏好,利用图传播层有效编码全局标签共现统计和单词级别相似性,结合基于注意力的匹配模块,可以在包括超过 10,000 种自由形式类型的大型数据集上实现更高的召回分数,并且在输出的稳定性方面也更少不一致性。
Mar, 2019