大型语言模型是否理解对话言外之意 —— 以中国情景喜剧为例研究

Apr, 2024

大型语言模型是否理解对话言外之意 —— 以中国情景喜剧为例研究

Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom

Shisen Yue, Siyuan Song, Xinyuan Cheng, Hai Hu

TL;DR大规模语言模型的非字面含义对于其成为类似人类的社交交流者至关重要。本文首次介绍了源自中国情景喜剧《武林外传》对话的 Chinese multi-turn-dialogue-based 数据集 SwordsmanImp。我们测试了八种封闭源和开源 LLM 模型在两个任务中的表现：多项选择问题任务和蕴涵说明任务。我们的结果表明 GPT-4 在多项选择问题上达到了人类水平的准确性（94%）。本研究还发现，除了 GPT-4 之外，大多数 LLM 无法对对话中的含义产生令人满意的解释。

Abstract

Understanding the non-literal meaning of an utterance is critical for large language models (llms) to become human-like social communicators. In this work, we introduce SwordsmanImp, the first Chinese multi-turn-dialogue-based dataset aimed at →

conversational implicature dialogues gricean maxims llms explanations

发现论文，激发创造

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

大型语言模型展示对新颖文学隐喻的演绎能力

通过评估 GPT-4，一个尖端的大型语言模型，在解释塞尔维亚诗歌中提取的新颖文学隐喻时所提供的自然语言解释能力，它未展现出之前接触过这些隐喻的迹象，但提供了详细而深刻的解释，被盲审的人员（不知道涉及 AI 模型的事实）将 GPT-4 生成的隐喻解释评为优于来自一组大学生的解释，这些结果表明 GPT-4 等大语言模型已经获得了解释复杂新颖隐喻的新兴能力。

Aug, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

大型语言模型在高估重要性方面存在偏见

近期，大型语言模型（LLMs），如 GPT-4，在自然语言处理方面取得了显著进展并接近人工通用智能。然而，本研究对 GPT-4 和其他 LLMs 进行评估，评估了它们在判断平凡、动机和伪深的陈述的能力。我们发现，无论是什么类型的陈述和提示技术，LLMs 与人类之间存在显著的陈述一致性。然而，LLMs 系统地高估了无意义陈述的深度，除了 Tk-instruct 外，它是唯一低估陈述深度的模型。只有少量训练样本的提示将 LLMs 的评分接近人类，而非思维链式的提示将 LLMs 的评分远离人类。此外，本研究揭示了强化学习来自人类反馈所引发的潜在偏见，即高估陈述的深度。

Oct, 2023

GPT-4 在语言语用学中超越人类表现

本研究通过基于对话的任务评估 Large Language Models（LLMs）和人类主体在解释语用学方面的能力，结果显示 GPT4 在解释语用学方面表现出了优越的性能和速度，同时在人类写作样本的预测试中也表现出了准确性，进一步的分析也揭示了 LLMs 的显著和持续的发展，为通信中心领域 AI 模型的发展和应用提供了重要的启示。

Dec, 2023

人与机：重新思考自然语言模型的蕴涵验证

该研究通过比较人类和大型语言模型（LLMs）之间的推理判断的共性和差异，以及对三个类别（NLI、contextual QA 和 rationales）的多个数据集进行评估，揭示了 LLMs 在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势，并引入了一种经过精细调整的 Flan-T5 模型来提高自洽性，在三个多项选择问答数据集上平均提高了 6% 的性能。

Feb, 2024

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

语言模型中出现的类人直觉行为和推理偏见 —— 以及 GPT-4 中的消失

本研究通过使用心理学方法，展示了大型语言模型（LLMs），尤其是 GPT-3，表现出类似于人类直觉的行为和认知错误，而具有更高认知能力的 LLMs，特别是 ChatGPT 和 GPT-4，学会避免这些错误，并表现出超理性的方式；此外，我们还探究了直觉决策倾向的稳定程度。

Jun, 2023

评估大型语言模型在课堂对话分析中的应用

该研究探讨了大型语言模型（LLM），特别是 GPT-4，在课堂对话分析中的应用，这是教学诊断和质量改进的关键研究任务。研究发现传统定性方法在教育研究中具有知识密集和劳动密集的特点，调查了 LLM 在简化和增强分析过程方面的潜力。通过对中学的数据集进行分析，包括数学和语文课堂的对话，该研究对人工编码的对话进行了评估，并使用定制的 GPT-4 模型进行了分析。该研究重点比较了手动注释和 GPT-4 输出，以评估其在教育对话分析中的有效性。评估了 GPT-4 的时间效率、编码者间一致性和编码者间可靠性。结果表明，使用 GPT-4 能够显著节省时间，并且模型与人工编码者之间具有高度的一致性，尽管在某些代码上存在差异。这些发现凸显了 LLM 在教学评估和促进方面的巨大潜力。

Feb, 2024

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023