Diplomat: 一种针对环境中情境语用推理的对话数据集

Jun, 2023

Diplomat: 一种针对环境中情境语用推理的对话数据集

Diplomat: A Dialogue Dataset for Situated PragMATic Reasoning

Hengli Li, Songchun Zhu, Zilong Zheng

TL;DR本研究提出新的基准测试系统 ——Diplomat，并针对语用推理和情境对话理解问题提出两个任务：语用识别与推理以及对话问答。通过在 4,177 个多轮对话中建立数据集，并利用状态 - 时间优化算法实现实验，发现大型语言模型表现不佳，情境理解是构建良好人机交互的关键因素，现有模型在语用推理应用方面存在缺陷，进一步需要更多的关注以提高对上下文的理解、推理和暗示意义建模的能力。

Abstract

pragmatic reasoning aims at resolving implicit meanings that commonly occur in real-life and is crucial for building communicative social agents. We introduce a new benchmark, diplomat, aiming at a unified paradi

pragmatic reasoning situated conversational understanding diplomat multi-turn dialogues context understanding

发现论文，激发创造

使用神经听者和说者推理语用学

我们提出了一个基于先验推理和学习语义结合的思想来描述场景的模型，成功率高于现有技术。

Apr, 2016

理解心理学与指称游戏相互作用的语用学的涌现

本文提出一种基于理论智能和自适应强化学习算法的合作式多智能体情境下的通讯协议，使得智能体可以在没有显式设计规则的情况下自发地学习 “读懂人心”，实现了语用学的概念在多智能体通讯系统中的有效应用。

Jan, 2020

学习调解差异以促进实用交流

本研究提出了一种基于 Pragmatic Rational Speaker 的框架，通过在工作记忆中添加轻量级差异调整层来学习演讲者 - 听者差异并相应地调整演讲，从而实现了一种类似于人类交流的 AI 代理能力。实证结果证明，该框架能够显著提高协作任务的结果。

Mar, 2022

利用 Codenames Duet 建模跨文化语用推断

本研究通过多轮合作游戏验证了由社会文化背景塑造的言语间推理假设在交流中的重要性，并通过多模型预测玩家的动作，实现了对其社会文化资料的联合建模，并表明这种建模方法显著提高了与给出线索和猜测相关的任务的性能。

Jun, 2023

基于实境的语言学习中的语用学问题、任务和建模方法

人们通过上下文来丰富文字表达，实现简洁而有效的沟通，为了让人工智能系统能够与人类进行自然交互，需要强调语用学技能，从分享语言目标和约定到视觉和肢体世界中的语境等，利用各种上下文信息有效地运用语言。本文调查现有的语境实现和语用模型方法，并分析了每个工作中的任务目标、环境语境和沟通便利之间的关系，从而丰富了语言含义。我们提出了关于未来基于任务设计的语境需求，以自然地引出语用现象的建议，并建议在更广泛的沟通语境和便利方面继续探索。

Nov, 2022

人类与语言模型的语用语言理解的精细比较

本文通过在英语材料的专家评估集上进行零 - shot 提示，进行了人类和语言模型在七个语用现象上的精细比较，发现最大的模型可以实现高精度和匹配人类错误模式，同时发现证据表明模型和人类对相似的语言提示敏感，旨在探讨人类语用处理机制和语言模型之间的关系。

Dec, 2022

基于常识的对话生成：一个实证研究

本研究针对 commonsense 在对话回应生成中的作用进行了实证研究，提出了一种新的对话数据集，并利用 ConceptNet 这个 commonsense 知识库，找到并整合了现有的真实对话数据集。通过使用这些数据集训练响应生成模型，该研究提出的自动评估方法显示出一定合理的评价效果。

Sep, 2021

通过自我监督实现可扩展的实用沟通

本文提出了一种可扩展的语用学方法，通过信息论原理来在代理人之间掌握语用技能，建立了一种新的架构和学习过程，而不是依靠人类数据。

Aug, 2021

TIMEDIAL: 对话中的时间常识推理

本文首次探讨了预训练语言模型在对话中的时间推理能力，并通过引入新任务 TIMEDIAL 和多项选择 cloze 测试集验证了模型的表现，同时指出模型在考虑对话上下文以及模型对于上下文中时间模式依赖性的主观推断方面存在差距，为未来时间概念建模和上下文推理方面的研究提出建议。

Jun, 2021

PUB：用于评估 LLMs 语用能力的语用理解基准

LLMs 展示了对语义的出色理解能力，但在理解语用学方面常有困难。为了证明这一事实，我们发布了一个包含四个语用学现象的语用学理解基准（PUB）数据集，即合困推理、预设、参照和指示。我们为每个任务精选了高质量的测试集，包括多选题答案（MCQA）。PUB 一共包含 28k 个数据点，其中 6.1k 个由我们创建，其余的则来自现有的数据集。我们评估了九个模型，参数数量和训练类型各异。我们的研究表明，对于较小的语言模型， fine-tuning 能够显著提升其在遵循指令和聊天方面的语用学能力。然而对于较大的模型来说，基础版本与聊天适应版本的性能相当。此外，人类的能力和模型的能力之间存在明显的性能差距。此外，与人类在各种任务上的一致表现不同，模型在熟练度方面表现不稳定，性能水平因不同提示和任务复杂性而波动。总体而言，这个基准旨在全面评估 LLM 处理需要语用推理的现实语言任务的能力。

Jan, 2024