- GPT-4 在至少跟人类一样理解语篇
GPT-4 与人类在标准化的议论理解测试中表现相近,都对故事中暗含的信息具有强大的推理能力。
- ChatGPT 离去后:创造力回归、同质化持续
ChatGPT 对创意任务的使用在提高人类表现方面取得了实证成果,然而尚不清楚这种提升效果在有无 ChatGPT 的情况下是否持续。在一个预先登记的为期七天的实验以及实验完成后 30 天的随访调查中,我们使用了来自 61 名大学生的 330 - HiFi4G:高保真人体运动渲染优化紧凑高斯图像拼接技术
使用 HiFi4G,基于高斯的方法从密集镜头中呈现高保真度的人体表现,结合了非刚性跟踪和 3D 高斯表示,通过双图机制和 4D 高斯优化方案实现了高效的优化速度、渲染质量和存储开销。
- 语言模型可以学习类比推理吗?研究训练目标和与人类表现的比较
通过测试几种学习基本类比推理的方法,研究人员发现模型在少量数据情况下也能学习类比推理,并与人类基准数据集进行比较发现,经过训练后,模型接近人类表现。
- 经验与预测:一种新的酸碱试纸测试难度指标
通过机器学习和大规模实验,本研究论文提出了一种新的系统,能够更快、更准确地输出 Winograd schemas 的难度,并扩展了已有研究,展示了人类在不同 Winograd schemas 上的表现变化。
- 人类 / 认知集成体中认知准确度与认知精度的增强
人类使用工具可以增强人类表现;认知系统是一种新型工具,不断增强认知能力,并且能够执行以前仅被认为是人类能力的高级认知任务;这篇文章通过两项研究结果展示了认知系统提供信息对认知准确性和认知精度的影响,这两个方面都可以通过不同类型的信息和不同类 - 野外环境中面部图像质量对面部识别的影响研究
深度学习在人脸识别领域近年来越来越受关注。大量的深度学习方法已被提出来解决面临的各种问题。然而,目前关于面部图像质量对深度学习方法和人类表现的影响的研究仍较少。因此,我们提出一个问题:在无约束条件下,面部图像质量对于基于深度学习的人脸识别仍 - 人类三维主动视觉空间问题解决的心理物理学
本文使用同异测试设计任务,探究人类在真实 3D 空间中视觉系统的表现,结果表明人类在没有经过培训的情况下,完成这项基本的认知任务的准确率高达 93.82%,但在一些任务里呈现出不同的答题样式和需要促发头部运动并记录着不同的眼球停留时长。
- 人类仍优于 ChatGPT:以 IEEEXtreme 竞赛为例
本篇论文通过 IEEExtreme 挑战赛的实验数据分析,来证明 ChatGPT 在程序设计中的实现能力与人类相比存在劣势。同时,论文提出了 AI 语言模型的局限性与可能的改进方向。
- 评估 3D 迷宫中的长期记忆
本文介绍了 Memory Maze,这是一个专门设计用于评估智能体长期记忆的三维随机迷宫领域,包括在线的强化学习基准测试、离线数据集和离线探测评估。我们发现当前算法在小迷宫上的表现很好,但在大迷宫上还不及人类表现,未来有待进一步进行算法设计 - ACL视觉空间推理
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
- ECCVPACS:用于物理视听常识推理的数据集
通过构建音视频共同存在的数据集 PACS,我们首次衡量了人类执行物理力学任务的准确性,并证明了多模态(多感官)推理对于物理常识推理的重要性。
- ACLTellMeWhy: 一个用于解答叙述中 Why 问题的数据集
介绍了 TellMeWhy 数据集,该数据集包含超过 30k 个关于短篇小说角色为何采取某些行动的问题和自由格式答案。通过对最先进模型的评估表明,它们在回答需要外部常识知识支持的问题上远远低于人类表现。
- EMNLP英文机器阅读理解数据集调查
该论文调查了 60 个英语机器阅读理解数据集,评估其问题和答案形式,并分析了它们的大小,词汇量,数据来源,创建方法,人类性能水平和首问词等特征。研究表明,维基百科是最常见的数据来源,而为什么,什么时候和哪里等问题在不同数据集中相对较少。
- CVPR在真实场景中检测卷积神经网络生成的人脸图像
研究表明,基于 CNN 的检测方法在现实场景中的鲁棒性还不足,本研究提出了一个跨模型、跨数据和后处理评估框架,并评估了最先进的检测方法,同时还探讨了常用的图像预处理方法及人类对于 CNN 生成图像的检测表现及影响因素。
- EMNLPTORQUE: 一个包含时间序问题的阅读理解数据集
本研究介绍了 TORQUE,这是一个新的英语阅读理解基准,用于检测时间关系,结果显示 RoBERTa-large 在 TORQUE 的测试集上的精确匹配分数为 51%,约为人类表现的 30%。
- CVPR深度学习是否可以识别微妙的人类活动?
本研究提出了一种新的通过行为分类进行计算机视觉算法性能提高的方法,并且通过消除数据集的混杂因素来比较人类和计算机视觉性能,表明当前计算机视觉算法的性能还有待提高。
- ACL不确定的自然语言推断
本文介绍了不确定的自然语言推断(UNLI),它是自然语言推断(NLI)的一种改进,通过预测主观概率评估来预测结果,利用概率评估重新标记了部分 SNLI 数据集,并使用现有的分类标签化的 NLI 数据进行预训练,最终模型展示了超越分类标签化的 - 长文本问答
这篇论文介绍了第一个大规模的长篇问答语料库,其中包括了 270,000 个 Reddit 论坛上的线索,使用多任务目标的诠释性模型表现最佳,但仍存在改进的余地。
- 人类与布偶的对比:GLUE 基准测试人类表现的保守估计
使用众包的方法,评估研究人员在 GLUE 基准测试中的人类表现,表明现代神经网络方法在低资源句子分类方面仍存在挑战。