语言模型未学习的任务
本文研究大语言模型在自然语言处理中的局限性,特别是无法学习一些基本语义属性,如语义蕴涵和一致性,以及不能学习超越 Borel 层次结构的概念,这对语言模型的语言理解能力产生了严重限制。
Jun, 2023
我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题,它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误,并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性,并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。
May, 2024
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
使用大型语言模型结合经典的心理物理学方法,从文本中提炼出心理物理信息,然后应用多维尺度方法发现其潜在的心理空间。在六个知觉域上测试我们的方法,成功地拟合了文献中已知的心理物理结构。这项工作展示了如何将最先进的机器模型与经典的认知范式相结合,从而阐明感知和语言研究中的基本问题。
Feb, 2023
发展心理学家们就认知能力(如语言理解或心灵理论)何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型(LM)的能力时也会遇到类似问题:对任务的表现是模型基本能力和利用其可用资源解释和执行任务的能力的综合体现。在这里,我们展示了对类比推理、反思推理、词语预测和语法判断的评估方法中,存在较高任务需求的评估比需求较低的评估表现更低。这种 “需求差距” 在参数较少、训练数据较少的模型中最为明显。我们的结果表明,LM 性能不应被解释为智能(或缺乏智能)的直接指示,而应看作是通过研究者设计选择镜头下看到的能力的反映。
Apr, 2024
现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能,对其性能在各种任务上进行了主要的评估,但忽视了它们的可靠性,特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发现,大型音频语言模型在理解音频内容方面与专用音频字幕模型相媲美,但在回答鉴别性问题上遇到困难,尤其是要求识别音频剪辑中特定对象声音存在的问题。这个限制凸显了当前大型音频语言模型的一个关键弱点:对于鉴别性查询的理解不足。此外,我们还探索了提示工程在提高大型音频语言模型在鉴别性问题上的性能方面的潜力。
Jun, 2024
使用多模式语言模型(MLLMs)时,音频 MLLM 在生成音频标题时不能完全利用其 LLM 的基于文本的推理能力,可能是因为 MLLM 将听觉和文本信息分别表示,从而切断了 LLM 到音频编码器的推理路径。
Jun, 2024
人类语言在思维和学习结构方面发挥重要作用。本文提出了一个挑战测评与深度学习语言模型相比人类表现的基准,并通过提供结构化符号推理模块来拓展深度学习语言模型,以使其更符合人类推理。实验表明,在语言表达能力、泛化能力等方面,人类远远优于 LLMs,这说明混合 AI 模型具有更接近人类推理的潜力。
May, 2022
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023