- ACLEconNLI: 对大型语言模型在经济推理上的评估
评估大型语言模型在经济领域的知识和推理能力,发现它们在经济推理方面不够成熟且可能产生错误或虚构的结果,提出了经济事件的自然语言推理数据集(EconNLI)以增强评估方法,认识到在涉及经济推理和分析的关键决策中使用大型语言模型存在局限性。
- 探究大型语言模型如何利用内部知识进行复杂推理
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。 - 利用 LMM 激发的情感嵌入进行干扰图像检测
本研究通过利用大型多模型模型中编码的知识,提出了一种新的方法来解决干扰图像检测的任务。该方法通过提取通用语义描述和引发的情感来利用多模型模型中的知识,并利用 CLIP 的文本编码器获取文本嵌入。最后,将这些文本嵌入与相应的 CLIP 图像嵌 - 用 LLMs 推理概念:充斥着不一致
知识的总结和组织对于学习和推理至关重要。我们展示了大型语言模型在知识方面存在显著的不一致性。通过使用简单的知识图谱,我们能够揭示语言模型中的概念上的不一致性,并提出了改进语言模型的策略。
- WorldQA:通过长链推理在视频中实现多模态世界知识
多模态信息和知识对我们理解复杂动态的世界至关重要。本文介绍了一个名为 WorldQA 的视频理解数据集,旨在推动多模态世界模型的发展,并通过引入多种观点挑战模型的能力。通过 WorldRetriever,介绍了一种将专家知识综合整理为连贯推 - FLAME: 大型语言模型的事实感知对齐
通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化,使其在保持指令遵循能力的同时,输出更多真实的回应。
- RAG 模型的忠实程度:量化 RAG 与 LLMs 内部先验之间的博弈
通过系统分析语言模型的内部知识和检索信息间的冲突来回答疑问,我们发现正确的检索信息可以修复大多数模型错误,但当参考文档中存在错误信息时,模型的内部知识对该错误信息存在较大的依赖性。这些结果突显了模型的先验知识与参考文档中呈现的信息之间的潜在 - 闭环学习中生成模型的热力学死亡
通过研究喂给自己生成的内容以及原始训练数据集的生成模型的学习动态,本文旨在提供对 “生成闭环学习” 这一过程的洞察,揭示了没有足够外部数据时,任何非平凡的温度都会导致模型渐近退化,即生成分布要么坍缩为一小组输出,要么在一大组输出上变得均匀。
- NL-ITI:优化探测和干预以改进 ITI 方法
大型语言模型容易返回虚假信息,为了解决这个问题,该研究探索了一种介入推理时间的范式,引入了非线性探测和多标记介入方法,称之为 Non-Linear ITI。该方法在多种多项选择基准测试中取得了鼓舞人心的结果,并且在与其他基线和模型相比的实验 - Larimar:具有情节记忆控制的大型语言模型
Larimar 是一种新颖的、仿脑结构的体系架构,用于增强大型语言模型(LLMs)的分布式情景记忆,实现动态、一次性的知识更新,无需计算昂贵的重新训练或微调。实验结果表明,Larimar 在多个事实编辑基准上达到与竞争对手相当的准确率,甚至 - 三相巩固式持续学习
TPC 是一种简单而有效的方法,用于在控制遗忘以前的知识的同时,不断学习新的类别(和 / 或已知类别的实例)。通过三个不同规则和学习动态特征的学习阶段,每个经验(任务)旨在消除由于类别失衡而引起的类别偏差问题,并限制基于梯度的校正以防止对未 - 将 ContextGPT 的知识融入神经符号活动识别模型
基于深度学习模型,上下文感知的人类活动识别是移动计算领域的热点研究方向。然而,这些系统的实际部署受到标注数据稀缺的限制。基于神经符号人工智能领域的研究提出了使用常识知识来缓解此问题,在人类活动识别深度学习分类器中融入关于人类活动及其上下文的 - Pearl: 一个基于评论的个性化知识驱动对话推荐数据集
我们提供了一个新颖的对话推荐数据集 PEARL,通过增加个性化和知识增强的 LLM 模拟器,从真实世界的评论中获得详细的人物角色和知识,构建了一个包含超过 57k 个对话的大规模数据集。我们的实验结果表明,PEARL 中的话语包括更具体的用 - VerifiNER: 基于知识驱动的大语言模型增强的命名实体识别的验证
最近在领域特定命名实体识别(NER)方面采取的方法取得了显著进展,但它们仍然缺乏准确性,产生错误预测。本文提出了一种后续验证框架 VerifiNER,通过利用知识来从现有的 NER 方法中识别错误并修正成更为准确的预测。我们的框架利用大型语 - 利用大型语言模型对认知代理进行引导
通过将大型语言模型中的噪声知识与认知模型相结合,我们提出的框架在厨房任务中的具体体验中表明相较于仅基于大型语言模型的代理,我们的方法能够更高效地运作。实验结果表明大型语言模型对认知架构来说是一个信息丰富的来源,并且认知架构能够验证和更新大型 - AAAIConVQG:带有多模态引导的对比式视觉问句生成
通过使用对比可视化问题生成(ConVQG)方法,我们成功地提出了一种生成基于图像、文本约束以及知识的对比问题的方法,实验证明 ConVQG 在相关性、图像相关性和知识丰富性等方面优于现有方法,并通过人类评估显示对 ConVQG 问题的偏好。
- 通过代理调整语言模型
通过将代理调校应用于大规模预训练语言模型,我们可以通过解码时间的指导,高效地定制大型、潜在的专有语言模型,从而在知识、领域适应和任务特定微调方面实现理想的行为。
- 在动态知识图谱中实现基于 SPIN 的描述时态动态算法的策略
计划和推理是最近逻辑和计算机科学研究中的重要问题,本研究提出了一种将行为嵌入到描述逻辑(DL)中的框架,用于表示和推理行为,并提出了一种算法来处理行动的各种情况。
- 数学解释
数学语句的解释以及一个解释为何比另一个更好的定义被给出,因为数学事实必须在所有因果模型中都是真的,而且必须被一个代理所知,所以数学事实不能成为解释的一部分(根据标准的解释概念)。这个问题通过使用不可能的可能世界得到解决。
- 探索 Transformer 的残差流
在本文中,我们通过研究 Transformer 模型的残差流来增强其可解释性。我们发现残差连接的机制是在 softmax 之前的值上进行直接相加,从而使得具有更大 softmax 之前值的标记的概率增加。此外,我们证明了使用对数概率增加作为