基于对话游戏的语言理解测试：动机、分类和策略

Apr, 2023

基于对话游戏的语言理解测试：动机、分类和策略

Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy

David Schlangen

TL;DR论文提出了一种使用 “对话游戏” 来测试人工语言理解能力的方法，并借由建立一种对话游戏类型的分类来探讨测试的结构效度，以达到更全面的评估。

Abstract

How does one measure "ability to understand language"? If it is a person's ability that is being measured, this is a question that almost never poses itself in an unqualified manner: Whatever formal test is applied, it takes place on the background of the person's language use in daily social practice, and what is measured is a specialised variety of

language understanding formal tests practice-based tests dialogue games construct validity

发现论文，激发创造

理解理解：受大型语言模型驱动的实用框架

通过随机采样和应用概率置信边界，我们提出了一个测试任何机器或人类是否理解一门主题的框架，其中包括确定问题范围、要求一般能力和避免荒谬答案，但允许某些问题的错误和 “我不知道” 答案。根据我们的框架，目前的大型语言模型不能说理解非平凡领域，但这个框架提供了一个测试理解的实用方法，也是构建理解型人工智能代理的工具。

Jun, 2024

关于一般语言理解

自然语言处理领域对于意义和测量的问题进行了实证研究，本文勾勒了一种理解模型，用于评估当前模型质量测量方法的适应性，并指出不同语言使用情境类型的特点、语言理解是多方面现象，以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。

Oct, 2023

通过互动学习语言游戏

通过和计算机交互完成任务，以语言游戏的方式，人类可以在不知道什么是语言的情况下学习语言，为建立自适应的自然语言接口打下基础，使用组合性而避免使用同义词有助于任务表现，从零开始快速学习语义解析模型，并进一步加速的学习计算机策略，以适应成功的玩家。

Jun, 2016

不欺骗图灵测试：朝向人工智能的基于实证的语言学习

研究自然语言理解在人工智能领域的挑战，结合认知科学、心理学、思维哲学和认知语言学的见解，评估目前的方法和挑战。

Jun, 2022

考试者有话说：理解人工智能在语言测试中的影响

AI 在语言测试中应用的潜在影响和测试人员的看法的第一次实证研究表明，AI 整合可能增强公平性、一致性和可用性感知，但可能引发对可靠性和互动性的不信任，从而影响测试人员的行为和福祉，为相关利益相关者提供更全面的社会影响的认识，并协助他们做出明智的 AI 应用决策。

Jul, 2023

面向环境和目标驱动的语言学习模式

本文提出一种通用的情境语言学习范式，旨在设计可靠的语言代理以能够与人类进行成功的合作。

Oct, 2016

人工智能时代的基于语言的博弈论

通过情感分析来研究决策和策略互动中的人类行为，以改变传统基于结果的效用函数观点，强调语言的重要性，为经济学、心理学和人工智能领域提供新颖的博弈论方法。

Mar, 2024

辅助任务需求掩盖了较小语言模型的能力

发展心理学家们就认知能力（如语言理解或心灵理论）何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型（LM）的能力时也会遇到类似问题：对任务的表现是模型基本能力和利用其可用资源解释和执行任务的能力的综合体现。在这里，我们展示了对类比推理、反思推理、词语预测和语法判断的评估方法中，存在较高任务需求的评估比需求较低的评估表现更低。这种 “需求差距” 在参数较少、训练数据较少的模型中最为明显。我们的结果表明，LM 性能不应被解释为智能（或缺乏智能）的直接指示，而应看作是通过研究者设计选择镜头下看到的能力的反映。

Apr, 2024

对话中的不同游戏：将人物和交谈类型相结合的战略选择

研究交互式对话类型与交谈者角色类型的相互作用是值得的，并展示了一种计算选择对话移动的决策过程的方法，其中结合了角色类型和对话类型，并以定量方式说明了这些因素的相互作用的数学模型。

Jul, 2023

视觉与语言研究中的挑战与前景

本文对语言图像理解中人工智能评估的进展和局限进行了综述，并提出了解决方案。

Apr, 2019