利用模式标签提升数据集搜索能力
语义文本相似性在软件工程中具有重要作用,在工程师需要澄清描述性标签(例如,业务术语、表列名)的语义的任务中,这些标签通常由过于简短或过于通用的词组成,并在其信息技术系统中出现。我们将这种问题定义为将描述性标签与词汇表描述匹配的任务。然后,我们提出了一个框架,利用现有的语义文本相似性测量(STS),并使用语义标签增强和基于集合的上下文化来增强它,其中前者是一种检索与给定标签相关的句子的方法,而后者是一种计算两个上下文之间相似度的方法,其中每个上下文均来自一组文本(例如,同一表中的列名)。我们对两个由公开可用数据源生成的数据集进行了实验,结果表明,所提出的方法能够帮助底层 STS 正确匹配更多的描述性标签与描述。
Oct, 2023
利用大型语言模型(LLMs)将自然语言问题转化为 SQL 查询(文本到 SQL)是一种有前途但具有挑战性的方法,特别是在应用于具有复杂和庞大模式的现实世界数据库时。我们提出了一个新的流程来解决这个问题,该流程有效地检索相关数据和上下文,选择一个高效的模式,并合成正确高效的 SQL 查询。
May, 2024
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签,其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。
Nov, 2023
本文研究预训练语言模型在数据到文本生成中使用关系标签生成语义准确输出时的问题,并通过实验发现,使用多样化的关系标签数据可以提高模型在生成新领域的语义准确性。
Oct, 2022
地址 “临时表检索” 的问题,提出了一种通过语义匹配查询和表格的方法,通过在多个语义空间中表示查询和表格,并采用各种相似性度量将这些特征用于监督式学习模型中,针对维基百科表格集合进行了实验,并取得了显著和实质性的改进。
Feb, 2018
通过 Inter-Schema AdapteR 来解决标签不一致问题,使得可以在异构模式下学习,避免重新注释数据,同时在老鼠行为分析数据集中达到了比 Dawid-Skene 模型更好的表现。
Jun, 2019
该研究论文提出了一种新的无监督领域适应方法 Generative Pseudo Labeling,该方法结合查询生成器和交叉编码器的伪标记,证明该方法可以在数据集较小的目标领域中进行更加鲁棒的训练,并且在检索任务上比最先进的密集检索方法提高了近 9.3 个百分点的 nDCG@10 指标。
Dec, 2021
提出了一种利用标签中的语义信息提高数据利用率的新方法,通过构建一种标志为自然语言描述的语义图来训练辅助图神经网络,以提取高层语义关系并指导主模型的训练,在图像、视频和音频模态下,应用该方法在迁移学习和半监督学习场景中展示了显著提高性能的多样性,并且深入分析还表明该方法加速了训练过程。
Nov, 2023
我们引入了一个新的任务,标签指令生成,旨在解决缺少公开可用的标注说明的问题,我们介绍了一个无需模型训练的框架,并使用一个新创建的快速检索系统,利用大型预训练视觉和语言模型,生成数据集类别的多个不同的视觉和文本表示,我们优化后的标注指令集在 5 个折叠中比 NuImages 高出 7.06 mAP,比 COCO 高出 12.9 mAP。
Jun, 2023