- 重新思考电子商务搜索
电子商务的搜索和推荐通常是在结构化数据上运行,但是在创建更好的搜索和推荐系统时,通常需要大量的非结构化数据,包括客户评论和网络文章。有别于传统的将非结构化数据转化为结构化数据的方法,我们提出了一种完全相反的解决方案,将结构化数据转化为文本数 - DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力
大型语言模型在生成能力方面表现出色,但当仅依赖其内部知识时,容易出现幻觉,尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案,然而,最近的方法主要强调从非结构化文本语料库进行检索,忽视了底 - EMNLPKG-GPT: 使用大型语言模型进行知识图谱推理的通用框架
KG-GPT 是一个多功能框架,利用大型语言模型(LLMs)进行知识图谱(KGs)相关任务的复杂推理,将句子分割、检索相关图谱组件和推导逻辑结论分为三个步骤。我们通过使用基于 KG 的事实验证和 KGQA 基准来评估 KG-GPT,发现该模 - LLM 是否能够有效利用结构信息进行图学习:何时以及为什么
该研究探讨了大型语言模型(LLMs)在结构化数据(尤其是图形)上的应用,旨在理解何时以及为何将图形数据中固有的结构信息纳入到 LLMs 的节点分类任务中可以提高预测性能。
- 使用大型语言模型匹配表格元数据与业务词汇
使用大型语言模型的方法,无需手动调整,能够匹配表格元数据和业务词汇,从而实现对结构化数据的检索和分析。
- 统一表示与多源学习实现的少样本数据生成文本
我们提出了一种新颖的结构化数据到文本生成方法,旨在改善多任务训练、零样本和少样本情况下的性能,并提供可以处理各种形式的结构化数据的统一表示,例如表格、知识图谱三元组和意义表示。我们证明了我们提出的方法可以有效适应新的结构化形式,并在性能上优 - 基于嵌入式检索和 LLM 的有效农业信息提取
利用领域无关的大型预训练语言模型 (LLM),本研究探索了一种从农业文档中提取结构化数据的方法,通过文本检索和基于嵌入的检索进行过滤,然后使用 LLM 问答来自动提取文档中的实体和属性,并将其转换为结构化数据。与现有方法相比,我们的方法在保 - S-Omninet: 结构化数据增强的通用多模态学习架构
本文扩展和改进了 Omninet 体系结构,引入了交叉缓存注意力、整合视觉输入的补丁嵌入和支持结构化数据,提出了增强型结构化数据 Omninet (S-Omninet) 模型,能够通过交叉缓存注意力和补丁嵌入在各维度的结构化数据和非结构化数 - 基于 GPT 自监督的数据标注器优化
本文提出了一种以 GPT 为基础的自监督注释方法,运用一次学习和生成恢复的范例,达到了不错的注释效果
- 结构化数据生成扩散模型综述
本文综述了最近的扩散模型在结构化数据中的应用情况及相关研究工作,重点介绍了基于分数的扩散模型理论以及在数据驱动的常规任务和特定领域应用中采用结构化数据模型的先驱工作,分析和讨论了现有工作的局限性和挑战,并提出了潜在的研究方向。
- 聊天 GPT 日志解析的评估
本文探讨了 ChatGPT 在自动日志解析方面的能力,并针对两个研究问题进行了评估,结果表明 ChatGPT 可以通过适当的提示方法实现良好的日志解析结果,尤其是采用少样本提示时效果最佳,同时提出了 ChatGPT 日志解析面临的挑战和机遇 - 跨模态结构化和非结构化数据湖的数据发现
介绍了 CMDL 系统,它能够支持结构化和非结构化数据的发现,并在保留表格数据的结构属性的同时,有效地整合各种相似度测量和草图。
- LANISTR:来自结构化和非结构化数据的多模态学习
LANISTR 是一种基于注意力机制的框架,能够学习语言、图像和结构化数据,并通过一种基于相似度的多模态掩蔽损失函数来学习大规模多模态数据中跨模态的关系。在两个具有挑战性的公开数据集 MIMIC-IV 和 Amazon 产品评论上,与现有的 - 文本转 SQL 中的社会偏见揭示与分类
本研究旨在揭示 Text-to-SQL 模型中的社会偏见,通过建立测试基准和展示如何利用我们的方法来揭示并评估下游 Text-to-SQL 任务中的社会偏见。
- ACL循环训练实现低资源数据文本生成
本文提出了一种基于无监督学习的方法 —— 循环训练,用于改善从结构化数据向自然语言文本的转化问题,在四个数据集中,这种方法表现得像完全监督方法一样出色,通过自动评价和人工评估表明,循环训练策略的不同对于降低文本生成错误类型的有效性也不同。
- 通过输入设计评估和增强大型语言模型在表格上的结构理解能力
本文旨在通过设计一个基准来评估 LLMs 的结构理解能力,包括七个挑战不同的任务,使用 self-augmentation 方法来提高 LLMs 的表格任务表现,提高了 TabFact、HybridQA、SQA、Feverous 和 ToT - STOAT: 用控件将结构化数据转化为分析性文本
本论文提出了一种基于 STOAT 模型的分析文本从结构化数据(如表格)生成方法,该模型可在输出中增加给定的推理类别,如数字推理、常识推理、时间推理、表格知识和实体知识,并在人类评价中比基准模型生成了 15.3% 更忠实和分析的描述。
- RxnScribe: 化学反应图解析的序列生成模型
本文介绍了 RxnScribe,一种用于解析不同风格反应图的机器学习模型,使用序列生成方法,将传统操作流程压缩为端到端模型,通过交叉验证,在 1,378 个图表数据集上获得了 80.0% 的软匹配 F1 分数,并且表现显著优于以前的模型。
- StructGPT: 大型语言模型推理结构化数据的通用框架
本文研究如何以统一的方式提高大型语言模型在结构化数据上的零 - shot 推理能力。作者基于工具增强的研究开发了一种名为 StructGPT 的迭代阅读 - 推理方法,通过构建收集相关证据的专门函数以及使用外部接口效仿并线性化生成推理,逐步 - WikiWeb2M:一份基于页面级别的多模态 Wikipedia 数据集
通过保留完整的图像、文本和结构数据,Wikipedia Webpage 2M(WikiWeb2M)套件旨在研究多模式网页理解,如页面描述生成、部分摘要和上下文图像说明。