- ICML面向人类的人工智能评估框架
本文提出了一个人类中心的评估框架,用于检测可靠的和值得信赖的 AI 系统,以及评估 AI 系统表现如何与领域专家进行比较。该框架可以作为一种人类中心的 AI 系统评估方法。
- AAAI元图灵测试
我们提出了一种替代图灵测试的方法,通过使双方的人类和机器都参与评判从而消除原始模仿游戏中人与机器之间的固有不对称性,并且建议了一些改进来提高这种测试的鲁棒性。
- EMNLPTURINGBENCH: 面向神经文本生成时代的图灵测试基准环境
该研究提出了 TuringBench 基准环境,旨在解决神经文本生成方法的 “图灵测试” 问题,它包括 200K 个人工或机器生成的样本数据集,分别涵盖 20 个标签,以及两个基准测试任务和网站排行榜,研究初步实验表明,FAIR_wmt20 - ICML透明度的图灵测试
该研究旨在通过构建透明的 AI 系统来提高人机交互的信任关系,并通过引入图灵测试来建立可信度评估体系,以便解释机器学习模型的结果,证明透明的 ML 方法能够通过人机交互获得信任,但也需要注意到人类与机器的辨别能力。
- EMNLP自动对话系统评估:一种无模型离线策略评估方法
提出了一种名为 ENIGMA 的自动对话系统评估框架,该框架基于策略评估的最新进展,并且相较于现有的自动评估方法有更强的人类评估得分相关性。
- AAAIImprobotics: 用机器智能探索即兴剧场中的模仿游戏
这篇论文介绍了一项实验,通过 Turing 测试探讨了人类演员和人工 improvisors 在戏剧表演中表现的差异,结果表明排练有助于艺术家控制表演事件,但人工 improvisors 生成的台词长度更长,更难以理解,而且不够自然。
- 对话语音转录中人类和机器误差的比较
本研究旨在探讨自动语音识别和人工转录的差异以及相关性,并通过 Turing 测试验证其性能。
- AAAIHard to Cheat: 基于图像问题回答的图灵测试
机器对语言和图像的理解正在取得进展,研究界对更为开放和整体的任务产生了浓厚兴趣,我们探讨了几个突出的挑战,主张将 “图像问答” 作为更具吸引力的一种全面任务,这是图灵测试的一个版本,对过度解释的错误更加鲁棒,并将其与其他任务如解释和描述的生 - NIPS迈向视觉图灵挑战
我们总结并讨论了针对语言和视觉的理解方面的一些挑战,其中解决方案将这两种模式紧密联系起来,以实现联合学习和推理过程。我们提供了一些解决方案,并在基于室内图像的问题回答任务上展示了一些解决方案,该任务建立了视觉图灵挑战。最后,我们辩称除了现有 - Lovelace 2.0 人工创造力与智能测试
我们提出了 Lovelace 2.0 测试作为评定智能代理是否具备创造力的一种替代图灵测试的方法,并结合之前的测试,同时提供直接比较不同代理的相对智能性的手段。
- 社交机器人的兴起
探讨社交机器人的现代特征和存在对在线生态和社会的危害性,以及对于在 Twitter 上检测社交机器人的现有努力以及这些机器人行为的特征,如内容、网络、情绪和时间模式与真实人类行为的区别。