- ORGANA:自动化化学实验和表征的机器助手
提出了一种人性化、灵活的机器人系统 ORGANA,通过自然语言与化学家进行交互,自动化各种化学实验,并且在实验过程中提供实时报告和支持。经过实验证明,ORGANA 显著改善了用户体验,并减轻了他们的体力负担。
- MARG: 科学论文的多智能体评论生成
通过使用多个 LLM 实例进行内部讨论,我们研究了 LLM 生成科学论文反馈的能力,并开发了一种名为 MARG 的反馈生成方法。在用户研究中,我们的系统显著提高了 GPT-4 生成具体和有帮助反馈的能力,将生成的普通评论的比例从 60%降低 - InstructPipe:利用人类指令构建视觉编程流水线
InstructPipe 是一种 AI 助手,通过文本指令帮助用户开始原型机器学习(ML)管道的构建,其技术评估表明,相较于传统方法,InstructPipe 减少了 81.1% 的用户交互,并通过用户研究(N=16)显示,Instruct - 人工智能与人类协作及认知信任的差异量化
预测协作可能性和衡量对人工智能系统的认知信任比以往任何时候都更加重要。为了解决这个问题,我们提出了几种基于分歧度量(如 KL,JSD)的决策相似度度量方法,这些方法通过对人类获取的标签和各种模型所得到的标签进行计算。我们在一个文本蕴涵任务上 - 评估模型解释在模型开发中的效用
通过用户研究,本研究评估了可解释人工智能在实际场景中对人类决策的改进效果,结果发现虽然解释有助于用户更准确地描述模型,但对于模型选择和反事实模拟这两个任务,并没有找到使用任何显著改进的证据,这表明对基于显著性的解释的实用性和可能的误解需要谨 - 超越聊天机器人:探索结构化思维与个性化模型响应
通过大型语言模型(LLM)探索任务,通过用户研究找到 ExploreLLM 对于探索性任务和规划任务具有帮助作用,为用户提供了任务的结构和引导,并展示了用户可以更容易地个性化响应以及天生语言和图形用户界面之间更紧密的集成。
- EucliDreamer: 快速而高质量的稳定扩散深度三维模型纹理化
本文采用一种新方法,通过给定文本提示和 3D 网格来生成 3D 模型的纹理。该方法考虑了额外的深度信息,利用深度条件稳定扩散的评分蒸馏采样过程生成纹理。我们在开源数据集 Objaverse 上运行了模型,并进行了用户研究,与各种 3D 纹理 - EMNLP大型语言模型中的下游性别偏见揭示:AI 教育写作辅助研究
通过大规模用户研究,评估了大型语言模型在写作支持中存在的偏倚,并发现这些偏倚并不会对学生的写作反馈产生显著影响。
- ABScribe:使用大型语言模型在人工智能协作写作任务中快速探索多种写作变体
探索重写文本的替代思想是写作过程中的重要组成部分。最先进的大型语言模型(LLMs)可以简化写作变体生成。为了解决当前界面在同时考虑多个变体时所面临的挑战,我们提出了一个名为 ABScribe 的界面,它支持人工智能与人类合作写作任务中,对写 - 通过可视化解释深度人脸算法的调查
该研究通过对面部可解释性算法的元分析,揭示了现有面部可解释性工作的结构和层次结构,并通过用户研究确定了实用的面部可解释性算法的设计考虑。
- 事后 XAI 方法中的可预测性与可理解性:用户中心分析
评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性,发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外,发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果,提出为未来的事后 - 面向对话助手的基于实践的复杂任务分割
通过将结构化说明转化为对话结构的形式,研究使用基于 Transformer 的架构模拟对话步骤,并通过用户研究证明了该方法对网页说明文本的改进
- 响应项目建议书的开放数据驱动团队推荐,促进研究合作
利用各种人工智能方法建议团队、评估团队质量并验证用户满意度,用以推荐和匹配研究机构与研究人员之间的合作机会。
- 重访牛津和巴黎的基于内容的像素检索
该论文引入了第一个像素检索基准,通过标注相关像素可以显著提高用户体验,并且提出了基于 ROxford 和 RParis 数据集的 PROxford 和 PRParis 像素检索基准,通过实验证明像素检索任务具有挑战性并且与现有问题有区别。
- MMVideolandGPT:一项关于会话式推荐系统的用户研究
通过在用户与聊天界面的交互中考虑额外的上下文,引入了名为 VideolandGPT 的推荐系统,使用 ChatGPT 从预定内容集中选择,该推荐系统评估了排名指标、用户体验和推荐的公平性,通过一项用户研究表明,个性化版本在准确度和用户满意度 - 促进用户在批判性论证反思中的参与
为支持公平且无偏见的意见建立过程,我们提出了一种与人类进行审议对话的聊天机器人系统。与说服性系统相反,这个聊天机器人旨在提供多样且代表性的概述 —— 嵌入在与用户的对话中。为了实现对话中用户的反思和无偏见的探索,我们使系统能够在用户过于专注 - 通过语言将高质量音频和视频连接起来,以便从视觉查询中检索音效
使用多模态框架和对比学习方法,基于高质量音视频数据实现了音效检索系统的建立,该系统在视频中检索高质量音效的任务上明显优于其他基准系统,并能在不同质量的音视频数据上具有很好的泛化性能,同时用户调查证实了人们更倾向于使用该系统检索音效。
- 概念游戏特征生成与推荐系统初步研究
本研究介绍了一种基于文本提示生成游戏特性建议的系统。通过训练小型 GLoVe 模型的单词嵌入来提取特性和实体,并通过生成模型生成用户提示的新特性。通过对使用精调的 GPT-2 模型、使用 ConceptNet 的模型和人工创作的游戏特性生成 - 多智能体优化解决方案的对比解释
在多个真实场景中,代理参与了优化问题,然而由于这些场景往往是过约束的,所以最优解并不总能满足所有代理的需求。为了解决代理对初始解满意度不高的问题,本文提出了一种名为 MAoE 的领域无关方法,通过生成一个新的强制满足代理需求的解并最小化该解 - 基于对话的机器人辅助导航系统:视觉语言基础
提出了 DRAGON,一种由对话系统驱动的导航机器人,通过理解用户的命令,DRAGON 能够引导用户到地图上所需的地标,描述环境,并回答来自视觉观察的问题。通过对话的有效利用,机器人可以将用户的自由形式描述与环境中的地标联系起来,并通过口语