通过人类凝视引导的序列跨模态对齐生成图像描述

EMNLPNov, 2020

通过人类凝视引导的序列跨模态对齐生成图像描述

Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze

Ece Takmaz, Sandro Pezzelle, Lisa Beinborn, Raquel Fernández

TL;DR本文通过计算机模拟探索图像描述生成时的跨模态对齐过程，结合人类凝视模式记录的信息进行多种模型方案的开发并分析，提出在视觉处理中逐序建模的图像描述生成方法，研究发现使凝视数据逐序处理可以得到更好的描述，探讨了人类认知过程的不同对齐方式并取得了更多自然、多样和更贴近说话者生成描述的结果。

Abstract

When speakers describe an image, they tend to look at objects before mentioning them. In this paper, we investigate such sequential cross-modal alignment by modelling the image description generation process computationally. We take as our starting point a state-of-the-art image captio

cross-modal alignment image description generation human gaze patterns visual processing cognitive processes

发现论文，激发创造

重新解读 ELIZA：世界上第一款聊天机器人并非本意上的聊天机器人

ELIZA 是世界上第一款聊天机器人，是 Joseph Weizenbaum 在 20 世纪 60 年代编写的，旨在研究人机对话和重要的认知过程，本文提供了 ELIZA 创造的丰富历史背景，并简要讨论了 ELIZA 的意外逃逸和原始 ELIZA 的丧失。

Jun, 2024

缓解差距：研究提升 CLIP 中跨模态对齐的方法

通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。

Jun, 2024

LLM 中信念表示的标准

大语言模型 (Large Language Models) 内部如何表达其对世界的信念是一个缺乏统一理论基础的研究领域，本文通过提出适当性条件，填补了这一空白。研究人员通过结合哲学和机器学习方法，建立了准确度、连贯性、一致性和应用等四个标准，以促进对大语言模型中信念表达的全面理解。

May, 2024

视觉对齐中的图像识别：优先考虑视觉相似性

通过对比图像输入，对每个文本标记的预测值差异提供了强大的视觉关联指导，我们提出了对每个文本标记赋予不同贡献的方法，名为 Contrastive ALignment (CAL)。我们的实验证明，CAL 方法在各种基准数据集上始终改善了不同类型的 VLM，并且与其他数据调整策略相比，我们的方法具有最小的额外计算开销。

May, 2024

胸部 X 光报告生成的结构实体提取与患者指征融入

我们介绍了一种新方法，用于胸部 X 射线报告生成，并通过实验证明其在自然语言生成和临床效果评估方面优于现有方法。

May, 2024

AlignGPT: 具有自适应对齐能力的多模态大型语言模型

利用新的多模态大型语言模型 AlignGPT，通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力，并在指导微调阶段自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求，取得了 12 个基准测试的竞争性性能。

May, 2024

CoCo 矩阵：智能代理协作与认知贡献分类

通过采用 Flower 和 Hayes 的认知过程理论，我们提出了 CoCo Matrix，这是一个基于熵和信息增益的二维分类法，用以描述新的人工智能写作系统与人类合作写作的模型。我们将三十四个已发布的系统位于四个象限中，发现低熵高信息增益系统是未被充分探索但具有潜在发展方向的，可以在写作任务中充分发挥代理人的发散规划和人类的聚焦翻译。CoCo Matrix 不仅对不同的写作系统进行分类，还加深了我们对人工智能写作中认知过程的理解。通过分析写作过程中的微小变化，CoCo Matrix 可以作为写作者心智模型的代理，使写作者能够反思自己的贡献。信息增益和熵这两个测量指标提供了洞见，不受所使用的写作系统的影响。

May, 2024

事实序列化增强：胸部 X 射线报告生成的关键创新

该论文介绍了一种名为 Factual Serialization Enhancement (FSE) 的新型方法，通过结构实体方法来消除报告中的演示风格词汇，实现胸部 X 光报告生成，并通过交叉模态对齐学习单模态特征以及从训练集中检索类似历史案例，最终利用交叉模态融合网络从这些案例中查询有价值的信息，提高图像特征和文本解码器生成高质量报告的能力。该方法在 MIMIC-CXR 和 IU X-ray 数据集上的实验证明了其在自然语言生成和临床效果度量方面优于现有方法。

May, 2024

通过替代性梯度尖峰神经网络探索言语知觉中的神经振荡

开发出基于生理学的语音识别体系结构，通过深度学习框架进行端到端的梯度下降训练，揭示了中央尖峰神经网络中神经振荡的出现，通过测量交互网络层内部和层间的显著交叉频率耦合来处理语音，发现反馈机制的抑制作用对调节和同步神经活动以提高识别性能至关重要，进一步推动了对视听途径同步现象的理解，且架构具有动态和高效的信息处理能力，对神经形态技术具有重要意义。

Apr, 2024

听力先行：具有讲话者关注的视频对齐

利用跨模态对齐和表示融合方法，在 Social IQ 2.0 数据集上取得了 82.06％的准确率，增强了视频模态的利用能力，并通过降低语言过拟合和当前技术所遇到的视频模态绕过等问题，提高了性能。

Apr, 2024