利用 AI 副驾驶员解决复杂搜索任务
基于 Bing Copilot(Bing 聊天)的实证分析结果显示,人们使用生成式搜索引擎进行更高认知复杂度的知识工作任务,相较于传统搜索引擎。
Mar, 2024
本研究探讨了 AI 支持的编程工具的现有局限性和未来发展挑战,从 Copilot 的代码建议语言习惯和代码气味方面进行了初步探索,同时提出了一个简单的分类工具来理解该领域的 AI 支持的 code completion 工具。
Mar, 2023
本文介绍了设计搜索代理的成功步骤,通过机器学习元策略来迭代查询精细化。文章提出了一种新颖的方法,使用机器阅读辅助挑选查询结果的精炼术语,使代理能够通过简单而有效的搜索操作对查询和搜索结果进行细粒度和透明的控制。通过自主学习,利用基于 Transformer 的语言模型来生成综合搜索会话,并介绍了一种强化学习代理,其具有动态限制的动作,可以从零开始学习交互式搜索策略。我们的搜索代理只使用传统的基于词项的 BM25 排名函数和可解释的离散筛选和筛选操作,即可达到与最新的神经方法相当的检索和答案质量性能。
Sep, 2021
本文讨论了人类在指定任务中使用应用程序所面临的挑战,提出了任务引导系统的发展需要寻找信息检索和会话系统来帮助任务的执行者,并针对现有数据集开发了一个基于 Wizard-of-Oz 的数据收集工具,进行了初步实验。
Nov, 2022
快速发展的人工智能以人工指导为基础的合作副驾驶模式,与仅仅是工具的角色相比,正在改变知识工作的各个方面,并将其影响扩展到日常生活和专业领域。本论文旨在从与人机交互和人因工程学等学科相关的研究和文献中强调在人工智能交互中保持人类监督的重要性,并呼吁通过强调积极的人类参与、控制和技能提升来设计人工智能合作伙伴关系,以促进和谐、有效和赋能的人工智能关系。
Nov, 2023
近年来,深度学习的最新发展已经产生了从自然语言和代码提示中生成源代码的代码生成模型,在课堂上,学习编程的新手现在可以使用免费工具自动建议编程练习和作业的解决方案,然而,目前尚不清楚新手如何与这些工具实际交互。本文通过观察和采访初学者,研究了使用一种自动生成代码的工具 Github Copilot 的学生在典型的编程入门任务中的感知、交互模式和认知和元认知困难,并探讨 Copilot 等工具如何更好地支持和搭建新手编程体验的设计方案。
Apr, 2023
AI 决策支持在航空等高风险领域有望提高人类决策能力,但由于过度依赖和与用户决策不一致等挑战,其应用常受限制。本研究旨在比较推荐为中心的支持与连续支持这两种不同范式在航空改航决策中的效果,考察结果表明连续支持结合推荐有助于飞行员向前思考超出系统限制的更多可能性,提供更快速的决策,而前向支持可能会受到干扰。参与者的陈述进一步建议将设计目标转移到支持快速信息获取,为超越全流程推荐的更有帮助和有效的 AI 决策支持提供了设计思路。
Jun, 2024
为了解决模型训练的数据和资源浪费问题,本文提出了一项新的挑战 —— 通过自然语言与现有智能体通信以完成复杂任务。通过设计一个综合性的基准测试 ——CommaQA,该基准测试包括三项复杂的推理任务,旨在通过与现有的 QA 智能体进行沟通来解决这些任务。研究表明,传统的黑盒模型在使用现有智能体的知识和金标事实监督时也难以从头开始实现此任务。相比之下,学会与代理通信的模型表现更好,即使没有任何辅助监督和数据,这种通过与现有代理完成复杂任务的学习仍然是非常困难的。本文提供了 CommaQA 基准测试和组合泛化测试集,以推动这方面的研究。
Oct, 2021
我们在 166 个编程问题的公开数据集上评估了 GitHub Copilot 的性能,发现它能够在第一次尝试中成功解决约一半的问题,并且仅使用问题描述自然语言的变化即可解决剩余 60%的问题;我们认为这种类型的提示工程是一种提高计算思维能力的潜在有用的学习活动,很可能改变代码编写技能发展的性质。
Oct, 2022