逆转二十个问题游戏
本文介绍一个基于 ChatGPT 的多角色、多步骤的二十问游戏挑战,研究发现在各种实验中,ChatGPT 可以在少于二十个问题(平均为 12 个问题)内猜出随机对象名称,并且在十六种不同的实验设置中正确率达到 94%。ChatGPT 在四种新颖的用例中扮演提问者、回答者、提问和回答双方角色,并最终尝试猜测适当的情感,并证明 ChatGPT 所表现出来的推理和问答技能可以用于复杂的蛋白质设计、神经科学元数据和儿童发展教育材料等领域。
Jan, 2023
本文提出了一种新的基于策略的强化学习方法,通过与用户的持续交互,使提问者代理学习到最优的问题选择策略。与以往方法相比,我们的强化学习方法对嘈杂的答案具有鲁棒性,不依赖于物品的知识库,在无噪音的模拟环境中具有竞争力的表现。
Aug, 2018
本文提出了一种基于 20 Questions 策略、采用 Learning-to-Ask 框架结合深度强化学习和概率矩阵分解的方法,可以有效地实现无人值守高准确度知识获取。基于实验数据结果,Learning-to-Ask 方法成功地使得智能体获得高成功率和快速知识获取的效果。
Jun, 2018
本文介绍了 Emotion Twenty Questions (EMO20Q) 的基于网络的演示,它是一个对话游戏,旨在研究人们如何描述情感。EMO20Q 还可用于开发能够玩游戏的人工智能对话代理程序。该系统的最新发展,包括基于变压器的神经机器学习模型和用于回答问题的系统架构和编程等方面的更新。该演示系统将可用于收集试点数据。
Oct, 2022
本文研究了自然环境下的是 / 否问题。我们建立了一个名为 BoolQ 的阅读理解数据集,并展示了它们出人意料地具有挑战性。我们还探讨了一系列迁移学习的基线效果,并发现从蕴涵数据进行转移的效果比从释义或抽取式 QA 数据进行转移的效果更好,即使从 BERT 等大规模预训练的语言模型开始转移,蕴涵仍然非常有益。我们的最佳方法是在 MultiNLI 上训练 BERT,然后在我们的训练集上重新训练它。它的准确率为 80.4%,而人类注释人员的准确率为 90%(多数基准为 62%),为未来的工作留下了巨大的差距。
May, 2019
该论文报告了一项灵感来自图灵测试的在线游戏 Human or Not?,此游戏采用人工智能聊天机器人和人类对话,并要求参与者正确识别对方身份。该游戏吸引了超过 150 万用户参与,研究发现,在人机交互方面,普通用户正确识别人工智能的比率仅为 60%左右,并且为未来探讨了人工智能与人类交互的可能性。
May, 2023
我们介绍了 GuessWhat?!,一种两个玩家的猜谜游戏,用于研究计算机视觉和对话系统的相互作用。我们收集了一个由 150K 个人类游戏、66K 张图像和总共 800K 个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。
Nov, 2016
在研究中,我们设计了一个名为 Cheater's Bowl 的游戏化界面来收集人类搜索行为的数据,分析了人类的搜索策略,并与最先进的多跳 QA 模型进行了比较,证明了人类的搜索策略可以提高现有系统的准确性,也提出了未来 QA 模型设计的改进。
Nov, 2022
本研究提出以益智游戏为框架进行数据构建来解决自然语言理解模型面临的问题,使用这种方法构建出包含 14,343 个 yes/no 问题的 CommonsenseQA 2.0,该数据集对比现有的深度学习模型难度更大(例如 T5-based Unicorn,精度达到 70.2%,而 GPT-3 只有 52.9%),但与人类表现相差甚远(94.1%)。
Jan, 2022
本研究提出了一种基于规则的开放域问答系统,可以回答来自相关上下文的任何领域的问题,使用 1000 个问题的 SQuAD 2.0 数据集测试开发的系统表现满意,同时分析了性能。
Mar, 2022