指引我：与深层网络交互

CVPRMar, 2018

Guide Me: Interacting with Deep Networks

Christian Rupprecht, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari

TL;DR本文研究了通过插入一个空间语义导向层来引导卷积神经网络的性能，包括使用交互式权重的循环模型来学习口头交互，并在两个数据集上进行了评估。

Abstract

interaction and collaboration between humans and intelligent machines has become increasingly important as machine learning methods move into real-world applications that involve end users. While much prior work

interaction machine learning visual processing convolutional neural network user input

发现论文，激发创造

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

通过引导概念学习实现可理解的卷积神经网络

该论文提出了一种带有附加概念层的 CNN 架构的引导学习方法，用于学习视觉特征和单词短语之间的关联，并通过优化预测准确性和特征表示的语义来学习与人类感知一致的概念，实验结果表明，所提出的模型可以在不牺牲准确性的情况下学习一致于人类感知的概念，并可将这些学习到的概念转移到具有相似概念的新对象类别中。

Jan, 2021

通过协作语义推断与深度学习模型的视觉交互

本文提出一种基于协同语义推理（CSI）的框架，通过人机视觉交互设计，实现人与算法的可视化协同，揭示深度学习模型的推理过程，从而使用户能够理解和控制模型的部分推理过程，其应用于文档摘要系统的案例研究表明了其可行性。

Jul, 2019

人类与神经网络之间的双向知识交互接口

通过构建一个双向交互界面，利用结构化的视觉概念及其关系作为人与神经网络之间的知识交流的 “语言”，研究在解释性人工智能领域取得了一定成果，但目前尚未提供人与神经网络之间的有效方法，以解决神经网络的可解释性和人机知识交互之间的问题。实验证明，通过该交互界面，神经网络能够向人类提供易于理解的推理解释过程，并且人类的参与和先验知识能够直接有效地提升神经网络的性能。

Jan, 2024

图像字幕生成中的引导解码学习

本文提出了一种在编码器 - 解码器框架下加入引导网络的方法，以模拟输入图像的属性特征为该任务带来了显著的性能提升，并通过在 MS COCO 数据集上进行的实验进行了验证。

Apr, 2018

通过自然语言反馈教机器描述图片

本研究通过引入人在环路中，使得机器人可以通过自然语言意见反馈学习多层级基于短语的图像字幕生成，展示出比独立编写的人类字幕表现更好的性能

Jun, 2017

卷积神经网络引导标注

本文提出了一种 guided labeling 方法，可以自动确定从未标记的数据集中应该标记哪些样本，从而显著地减少了需要手动标记的样本数量。

Dec, 2017

使用视觉语言模型指导人类决策者的学习

机器学习模型在高风险任务中辅助人类决策，通过提供可解释且任务特定的指导，而不是取代人类专家的决策能力。

Mar, 2024

学习忠实地遵循以物体为中心的图像编辑指令

自然语言指令与图像编辑相结合，通过改进的数据增加监督信号，使模型能够优于最先进的基线技术，在细粒度物体中心编辑方面取得了显著的改进，同时还能推广到训练过程中未见过的领域。

Oct, 2023

通过互相反馈与代理互动，提高基于场景的语言理解能力

探索交互式人工智能与人类协作的方向，研究在基于 Minecraft 世界的交互式语言理解任务中，人类可以提供哪些类型的辅助帮助，以提高 AI 行为的性能和表现。

Apr, 2023