非结构化数据与结构化数据：大语言模型能否两全其美？

Apr, 2023

非结构化数据与结构化数据：大语言模型能否两全其美？

Unstructured and structured data: Can we have the best of both worlds with large language models?

Wang-Chiew Tan

TL;DR本文讨论了利用大型语言模型查询结构化和非结构化数据的潜力，并概述了构建这两种数据类型问答系统的相关研究挑战。

Abstract

This paper presents an opinion on the potential of using large language models to query on both unstructured and structured data. It also outlines some research challenges related to the topic of building

large language models unstructured data structured data question-answering systems research challenges

发现论文，激发创造

结合预训练语言模型和结构化知识

本文调查了将结构化知识集成到现有的语言模型中的各种方法，并确定了挑战和可能的机会，发现利用基于适配器的注入仍有机会，并且可能将多种探索过的方法进一步结合成一个系统。

Jan, 2021

半结构化思维链：整合多源知识以提升语言模型推理能力

该研究介绍了一种半结构化提示方法，有效地整合了大型语言模型的参数记忆、文本文档的非结构化知识和知识图谱的结构化知识，并在开放领域的多跳问题回答数据集上进行实验证明了该提示方法显著优于现有技术，甚至超过了需要微调的方法。

Nov, 2023

学习联合查询解释和响应排序

利用保留非结构化文本语料的数据表征和结构化注释，我们提出了两种新的联合查询解释和响应排序的公式，既考虑了查询解释的不确定性，又将信息从知识库和语料库之间进行双向流动，这在实体搜索中表现出更高的精度。

Dec, 2012

语言模型参数中能够包含多少知识？

本文研究采用预训练的神经语言模型 Fine-tuning 技术回答问题，证实这种方法不需要额外的上下文或知识，并能有效解决竞争性问题。我们提供代码和训练的模型以促进可重复性和未来的工作。

Feb, 2020

大型语言模型在表格数据上的应用 -- 综述

综述中介绍了大规模语言建模在表格数据建模相关任务中的应用，包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论，本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙，并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解，为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。

Feb, 2024

语言模型在半结构化和非结构化对话数据集中的主题分割

我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力，并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时，我们的实证评估表明，Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。

Oct, 2023

灵活结构化的知识驱动问答

本文提出了一种使用语言模型结合知识进行基于知识的问答的方法，其中包括知识构建方法和深度融合机制，可以优雅地提取结构数据和提高模型性能。

Sep, 2022

通过问答探究语言模型对结构化语义理解和生成的能力

最近大规模语言模型能力的进步引发了对其评估的新浪潮，这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力，实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平，但在生成正确逻辑形式方面仍有改进的空间，使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好，同时结果还表明模型对不同形式语言表现出显著的敏感性，总体而言，形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。

Jan, 2024

将图形与大型语言模型融合：方法与前景

大型语言模型与图结构化数据的集成可以通过增强现有图算法和作为预测模型来提升性能，同时结合图结构可以在各种复杂任务中显著改善大型语言模型的表现。

Oct, 2023

重新思考电子商务搜索

电子商务的搜索和推荐通常是在结构化数据上运行，但是在创建更好的搜索和推荐系统时，通常需要大量的非结构化数据，包括客户评论和网络文章。有别于传统的将非结构化数据转化为结构化数据的方法，我们提出了一种完全相反的解决方案，将结构化数据转化为文本数据，并通过 LLMs 对其进行搜索和推荐。

Dec, 2023