基于对话游戏的语言理解测试:动机、分类和策略
通过随机采样和应用概率置信边界,我们提出了一个测试任何机器或人类是否理解一门主题的框架,其中包括确定问题范围、要求一般能力和避免荒谬答案,但允许某些问题的错误和 “我不知道” 答案。根据我们的框架,目前的大型语言模型不能说理解非平凡领域,但这个框架提供了一个测试理解的实用方法,也是构建理解型人工智能代理的工具。
Jun, 2024
自然语言处理领域对于意义和测量的问题进行了实证研究,本文勾勒了一种理解模型,用于评估当前模型质量测量方法的适应性,并指出不同语言使用情境类型的特点、语言理解是多方面现象,以及理解指标的选择标志了对基准测试和语言处理伦理的考虑的开端。
Oct, 2023
通过和计算机交互完成任务,以语言游戏的方式,人类可以在不知道什么是语言的情况下学习语言,为建立自适应的自然语言接口打下基础,使用组合性而避免使用同义词有助于任务表现,从零开始快速学习语义解析模型,并进一步加速的学习计算机策略,以适应成功的玩家。
Jun, 2016
AI 在语言测试中应用的潜在影响和测试人员的看法的第一次实证研究表明,AI 整合可能增强公平性、一致性和可用性感知,但可能引发对可靠性和互动性的不信任,从而影响测试人员的行为和福祉,为相关利益相关者提供更全面的社会影响的认识,并协助他们做出明智的 AI 应用决策。
Jul, 2023
发展心理学家们就认知能力(如语言理解或心灵理论)何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型(LM)的能力时也会遇到类似问题:对任务的表现是模型基本能力和利用其可用资源解释和执行任务的能力的综合体现。在这里,我们展示了对类比推理、反思推理、词语预测和语法判断的评估方法中,存在较高任务需求的评估比需求较低的评估表现更低。这种 “需求差距” 在参数较少、训练数据较少的模型中最为明显。我们的结果表明,LM 性能不应被解释为智能(或缺乏智能)的直接指示,而应看作是通过研究者设计选择镜头下看到的能力的反映。
Apr, 2024
研究交互式对话类型与交谈者角色类型的相互作用是值得的,并展示了一种计算选择对话移动的决策过程的方法,其中结合了角色类型和对话类型,并以定量方式说明了这些因素的相互作用的数学模型。
Jul, 2023