元语义学:迈向更好的自然语言理解和推理
利用预训练的大型语言模型(LLMs)和 ChatGPT API 作为推理核心,通过自然语言处理、基于方法论的提示调整和 Transformer 技术,自动化创作基于场景的本体论文、都市数据集和模拟技术手册,生成知识图谱,以促进都市决策支持系统的发展。
May, 2024
通过自动将自然语言句子转化为描述逻辑,我们使用大型语言模型将自然语言句子转换为 OWL 功能语法,用于丰富本体论,并通过人类监督的方式提供该工具作为 Protge 插件。
Jul, 2023
本研究探讨大型语言模型在自然语言推理任务上的表现。通过使用少量样本指导大型语言模型进行任务适应,以及可应用于多个任务的可重用的知识模块,结合逻辑形式输入的答案程序,实现了在多项 NLP 基准测试上的最新性能,包括 bAbI,StepGame,CLUTRR 和 gSCAN,并成功解决了机器人规划任务,而大型语言模型单独无法解决。
Jul, 2023
我们通过在 6 个任务上进行广泛的评估,发现虽然 LLM 表现出某些神经理论社交认知能力,但这种行为远非稳健。我们进一步研究影响 N-ToM 任务表现的因素,并发现 LLM 难以应对对抗性例子,这表明它们依赖于浅层启发式算法,而非稳健的 ToM 能力。我们警告不要从个别例子、有限的基准测试和使用人设计的心理测试来评估模型。
May, 2023
本文通过在逻辑单词谜题上比较使用 ChatGPT 和 GPT-4 直接解决问题和提取问题文本事实并使用定理证明器解决两种方法,并得出后者是正确的方法来研究了利用大语言模型解决自然语言问题需要一些非平凡的推理。
Apr, 2023
最近大规模语言模型能力的进步引发了对其评估的新浪潮,这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力,实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平,但在生成正确逻辑形式方面仍有改进的空间,使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好,同时结果还表明模型对不同形式语言表现出显著的敏感性,总体而言,形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。
Jan, 2024
人工智能广泛应用于解决与市场归因和预算优化相关的问题,然而由于模型复杂,很难在没有完整的实施团队的情况下理解模型的运作和见解,理论上,最近开发的大型语言模型(如 GPT-4)可以用来提供营销见解,以减少做出关键决策所需的时间和精力。 实际上,要可靠地使用这些模型,需要克服一些重大挑战,我们聚焦于领域特定的问答、用于数据检索的 SQL 生成以及表格分析,并展示了如何通过语义搜索、提示工程和微调的结合来显著提高大型语言模型执行这些任务的准确性。我们比较了专有模型(如 GPT-4)和开源模型(如 Llama-2-70b),以及各种嵌入方法。这些模型在特定于市场混合建模和归因的样本用例上进行了测试。
Apr, 2024