利用模式标签提升数据集搜索能力

Jan, 2020

利用模式标签提升数据集搜索能力

Leveraging Schema Labels to Enhance Dataset Search

Zhiyu Chen, Haiyan Jia, Jeff Heflin, Brian D. Davison

TL;DR本研究提出了一种新的基于数据集表格内容的模式标签生成模型，将该模型生成的模式标签与数据集元数据相结合，基于混合排序模型为数据集检索任务提供更高的检索准确率和 NDCG 得分，并在 Wikipedia 数据集上测试表明模式标签能够改善无监督和有监督的 Web 表格检索任务。

Abstract

A search engine's ability to retrieve desirable datasets is important for data sharing and reuse. Existing dataset search engines typically rely on matching queries to dataset descriptions. However, a user may not have enough prior knowledge to write a query using terms that match with description text.We propose a novel →

dataset search engine schema label generation model metadata retrieval task unsupervised web table retrieval

发现论文，激发创造

描述标签与术语描述的匹配

语义文本相似性在软件工程中具有重要作用，在工程师需要澄清描述性标签（例如，业务术语、表列名）的语义的任务中，这些标签通常由过于简短或过于通用的词组成，并在其信息技术系统中出现。我们将这种问题定义为将描述性标签与词汇表描述匹配的任务。然后，我们提出了一个框架，利用现有的语义文本相似性测量（STS），并使用语义标签增强和基于集合的上下文化来增强它，其中前者是一种检索与给定标签相关的句子的方法，而后者是一种计算两个上下文之间相似度的方法，其中每个上下文均来自一组文本（例如，同一表中的列名）。我们对两个由公开可用数据源生成的数据集进行了实验，结果表明，所提出的方法能够帮助底层 STS 正确匹配更多的描述性标签与描述。

Oct, 2023

CHESS: 上下文利用有效 SQL 综合

利用大型语言模型（LLMs）将自然语言问题转化为 SQL 查询（文本到 SQL）是一种有前途但具有挑战性的方法，特别是在应用于具有复杂和庞大模式的现实世界数据库时。我们提出了一个新的流程来解决这个问题，该流程有效地检索相关数据和上下文，选择一个高效的模式，并合成正确高效的 SQL 查询。

May, 2024

ML 基础关键短语提取与验证的科学文本自动标注

本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据，特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明，所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签，其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。

Nov, 2023

利用预训练模型描述知识图谱中的关系

本文研究预训练语言模型在数据到文本生成中使用关系标签生成语义准确输出时的问题，并通过实验发现，使用多样化的关系标签数据可以提高模型在生成新领域的语义准确性。

Oct, 2022

利用语义相似性进行 Ad Hoc 表格检索

地址 “临时表检索” 的问题，提出了一种通过语义匹配查询和表格的方法，通过在多个语义空间中表示查询和表格，并采用各种相似性度量将这些特征用于监督式学习模型中，针对维基百科表格集合进行了实验，并取得了显著和实质性的改进。

Feb, 2018

使用大型语言模型匹配表格元数据与业务词汇

使用大型语言模型的方法，无需手动调整，能够匹配表格元数据和业务词汇，从而实现对结构化数据的检索和分析。

Sep, 2023

扩展的 Dawid-Skene 模型：融合来自多个数据模式的信息

通过 Inter-Schema AdapteR 来解决标签不一致问题，使得可以在异构模式下学习，避免重新注释数据，同时在老鼠行为分析数据集中达到了比 Dawid-Skene 模型更好的表现。

Jun, 2019

GPL: 密集检索的生成伪标签用于无监督域适应

该研究论文提出了一种新的无监督领域适应方法 Generative Pseudo Labeling，该方法结合查询生成器和交叉编码器的伪标记，证明该方法可以在数据集较小的目标领域中进行更加鲁棒的训练，并且在检索任务上比最先进的密集检索方法提高了近 9.3 个百分点的 nDCG@10 指标。

Dec, 2021

语言语义图引导的数据高效学习

提出了一种利用标签中的语义信息提高数据利用率的新方法，通过构建一种标志为自然语言描述的语义图来训练辅助图神经网络，以提取高层语义关系并指导主模型的训练，在图像、视频和音频模态下，应用该方法在迁移学习和半监督学习场景中展示了显著提高性能的多样性，并且深入分析还表明该方法加速了训练过程。

Nov, 2023

模拟标注员思维：数据集标注指令生成

我们引入了一个新的任务，标签指令生成，旨在解决缺少公开可用的标注说明的问题，我们介绍了一个无需模型训练的框架，并使用一个新创建的快速检索系统，利用大型预训练视觉和语言模型，生成数据集类别的多个不同的视觉和文本表示，我们优化后的标注指令集在 5 个折叠中比 NuImages 高出 7.06 mAP，比 COCO 高出 12.9 mAP。

Jun, 2023