- Auto-ICL: 无人监督的上下文学习
在大语言模型时代,人机交互朝着自然语言发展,提供了前所未有的灵活性。然而,大语言模型在上下文学习领域内高效运行往往依赖于结构良好的提示。为了解决这一挑战,我们的研究提出了一个名为自动上下文学习的通用框架。在接收到用户的请求后,我们要求模型自 - 实现视觉辅助对话的社交机器人
本论文提出了一个初步实现的对话管理器,利用最新的大型语言模型(如 GPT-4,IDEFICS)来将视觉能力整合到对话代理中,以增强传统的基于文本的提示与实时视觉输入。该系统的提示工程结合了对图像的对话与摘要,以确保在上下文保留和计算效率之间 - 展开虚拟世界,创造沉浸式体验
此研究首创了一种生成沉浸式世界的方法,从古老的冒险游戏如《谜思》中汲取灵感,并运用现代的文本到图像模型。我们研究了将二维全景图转化为三维场景的复杂过程,解决了观察者在包围球内部导航时发生的感知扭曲问题。我们的方法采用类似 “修补” 技术的方 - NITEC:自拍视觉互动的多功能手动标注眼神接触数据集
眼神接触是非常重要的非语言互动形式,在我们日常社交生活中起着重要作用。我们解决了机器捕捉人的眼神注视的挑战,给出了 NITEC 这一手动注释的自我视觉互动眼神接触数据集。我们的广泛评估结果表明,NITEC 在不同场景中具有强大的交叉数据集性 - LSA64: 阿根廷手语数据集
自动手语识别是一个研究领域,包括人机交互、计算机视觉和机器学习。该论文介绍了一个涉及阿根廷手语的数据集,名为 LSA64,旨在构建一个针对阿根廷手语识别或其他机器学习任务的全面研究级数据集的第一步。
- 不受帧序约束的手语识别:阿根廷手语的概念验证
该研究探讨了自动手语识别的问题,提出了一种基于概率模型的手语分类方法,通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试,证实了可以实现不考虑顺序的识别,并取得了 97% 的准确率。
- 多模式三维场景理解的最新进展:综合调研和评估
本文对多模态 3D 场景理解的最新进展进行了系统调查,介绍了各种多模态任务的背景和困难,分类了现有方法,并对它们的优势和限制进行了探索,提供了在几个基准数据集上的对比结果和深入分析,最后讨论了未解决的问题并提出未来研究的几个潜在方向。
- 3M-TRANSFORMER:用于体现式交替预测的多级多轮多模态 Transformer
使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况,在已引入的 EgoCom 数据集上进行实验,与现有的基线和替代基于 Transformer 的方法相比,平均性能显著提升了最高达 14.01% - Prompt-to-OS(P2OS):用集成的 AI 生成模型革新操作系统和人机交互
本文旨在介绍一种创新的人机交互范式,其中用户与机器的交互由相互连接的生成性人工智能模型生态系统处理,这一范式通过大规模的生成模型实现,使得用户无需显式命令或复杂导航,直接与系统进行自然语言对话,并为用户提供上下文和有意义的响应,提供流畅和直 - 基于迁移学习和深度集成学习的手势识别的两阶段方法
利用预训练的高性能深度神经网络模型在 HG14 数据集上进行手势识别,通过多个模型的集成学习技术,达到了 98.88% 的准确率,展示了深度集成学习技术在人机交互中的有效性及其在增强现实、虚拟现实和游戏技术等领域的潜在应用。
- 探寻 ChatGPT 的共情能力
我们研究了 ChatGPT 基于 GPT-3.5 如何展示共情响应和情感表达的程度,分析了理解和表达情感、平行情感回应和共情个性三个方面,结果显示在 91.7%的情况下,ChatGPT 能够正确识别情绪并产生适当的回答,并在 70.7%的对 - 开发特定领域自然语言处理应用的生成用户体验研究
本文提出了一种将生成性用户体验(UX)研究与开发领域自然语言处理(NLP)应用程序相结合的方法论,并在案例研究中证明,将领域专家参与其中可以提高他们对最终 NLP 应用程序的兴趣和信任。
- 从像素到 UI 操作:通过图形用户界面学习跟随指令
本研究提出一种使用基于像素的屏幕截图和一般的鼠标和键盘动作空间来模拟人与数字世界互动的智能代理。通过依赖于最近的像素预训练技术,该代理在 GUI 任务的 MinWob ++ 基准测试中表现出比人类众包工人更好的性能。
- 探索基于生成式人工智能的辅助技术在自闭症人士中的前景
本文旨在探讨将深度伪造(Deepfakes)技术作为一种辅助技术所具有的潜力,研究了 Nvdia 的新视频会议功能在自闭症患者中的应用可能性,提出了深度伪造技术为人机交互(HCI)带来的影响,并提出了需要进一步调查的开放性问题。
- 基于机器学习的教学系统:概念框架
本文探讨了机器学习模型在组织背景下促进知识转移的潜力,以构建更具成本效益的基于 IT 的教学系统。通过系统的文献综述和概念分析,本研究为计算机支持的协同工作领域做出了贡献,为构建区别于众的人机交互的知识转移子领域奠定了基础。
- 深度学习在视频字幕生成中的综述
本文介绍了视频字幕生成技术的研究现状和面临的挑战,重点讨论了基于深度学习的方法,涵盖了多种架构及其应用领域,如问答、检索等。
- 可解释和鲁棒的 EEG 系统人工智能调查
本文第一次全面介绍了解释性与鲁棒性人工智能技术在脑电图系统中的应用及其未解决问题与发展方向。具体而言,我们首先提出了三种类别的可解释性分类方法:反向传播,扰动和内在可解释性方法,并将鲁棒性机制分类为噪声和伪迹、人类变异、数据获取不稳定性和对 - 任意风格迁移:让毕加索和达芬奇合作
该研究提出了一种名为任意到任意风格转移的方法,利用区域分割和注意力融合模块,通过人机交互实现个性化的风格转移,该方法可适用于任何风格转移模型并增强可控性。
- AI-Enabled 系统中用户信任的系统文献综述:以人机交互为视角
对用户信任、影响因素和测量方法进行的 23 个实证研究的综述确认了定义信任的多种方法和用户特征对 AI 启用系统中的信任产生的影响等主题,从而为未来技术和设计策略、研究和举措提供了洞察。
- 人工智能 / 运筹学研讨会二报告
这篇论文讨论了可信 AI 和 OR 技术的基础要素,包括公正性、可解释性、鲁棒性和隐私以及人机互动等,通过这些要素的整合与协作,可最终满足社会需求和解决挑战问题。