- 单一视觉变换器的图像和视频联合学习
我们提出了一种使用单一模型联合学习图像和视频的方法,该方法采用了批量图像输入和通过深度融合来进行时间聚合的视频帧集合。通过实验结果展示了在两个图像数据集和两个动作识别数据集上的效果。
- 基于颜色校正和新成员函数的快速尘沙图像增强
基于颜色校正和新的成员函数,提出了一种新的模型来增强沙尘图像,包括颜色偏移校正、雾霾去除和对比度亮度增强,并通过多张真实沙尘图像的测试和评估,实验结果表明该模型在有效去除红色和黄色偏移以及提供高质量和多样化的沙尘图像方面优于当前的研究。
- 基于 Retinex 的图像去噪与对比增强:利用梯度图拉普拉斯正则化
通过图形正则化,我们提出了一种快速的 Retinex-based 恢复方案,可以去噪和增强图像,从而在降低计算复杂性的同时实现竞争性可视图像质量。
- 多模态情感识别基于时间模型的比较
本文研究了在多模态情感识别中使用不同序列模型的表现,使用多层 CNN 模型处理音频和图像,比较了 GRU、Transformer、LSTM 和 Max Pooling 这四种序列模型的准确度、精度和 F1 分数,观察到这些序列模型在情感识别 - 关于一些压缩算法
本研究利用神经网络算法在迭代函数系统的框架下寻找图像压缩方法,该系统是一组满足适当性质的区间变换。
- VVC+M: 人机插拔式可扩展图像编码
提出了一种利用视频编解码器中的残差编码能力创建可扩展编解码器的方法,这种方法能够提高现有的可扩展编解码器在机器任务方面的 RD 性能,同时在人类感知方面保持竞争性。
- CVPRSpider GAN:利用友好邻居加速 GAN 训练
本篇论文提出了一种名为 Spider GAN 的生成对抗网络训练方法,通过识别相关数据集或目标分布的 “友好邻居” 来建立图像结构,使用新的测量方式 Signed Inception Distance (SID) 来定义 friendly - 利用多模态场景信息的情感感知
利用预训练视觉语言模型从图像中提取前景环境描述,并结合其他多元素素进行情感预测,在自然环境和电视秀等数据集中取得了可行的结果。
- EMNLP理解语言空间中社交媒体的跨模态话语
本文研究了文本和图像相结合在社交媒体中的多媒体传播方式,提出了交叉模态话语的新概念,通过五个标签来表述图像和文本之间的关联,验证了通过多头注意力与字幕的多媒体编码器能够达到最先进的结果。
- AAAI图对比学习及其它领域的频谱特征增强
本文介绍了一种用于对图和图片进行对比学习的新颖的光谱特征增强方法,通过不完全的幂迭代,可以部分平衡特征图的频谱,注入噪声,从而实现光谱增强,提高了泛化能力,是一种与其他增强策略互补且兼容各种对比损失的方法。
- 为什么小鸡要过马路?重述和分析 VQA 中的模棱两可问题
通过构建一个二义问题数据集,并使用基于英语的问题生成模型以及语言对齐本体论来减少二义性,我们展示了一种将答案组信息整合到问题生成目标中的方法。
- EMNLP基于具体性的合集模型用于名词属性预测的可视化
本文提出了一种利用图像来补充语言模型信息的方法,并在排名任务中验证了该模型在名词属性预测上的优越性,相较于仅使用文本的语言模型。
- 像素的语言建模
该文章介绍了 PIXEL,一种基于像素的预训练语言模型,通过将文本渲染为图像,PIXEL 可以处理不同语言,特别是非拉丁文字。实验发现 PIXEL 在语法和语义处理方面表现优异,且对于噪声文本的输入更为稳健。
- 多模态虚假信息检测:方法、挑战及机遇
本文分析社交媒体中多模态环境下的虚假信息与图片 / 视频利用的挑战和机会,探讨现存技术及其不足,旨在进一步提升多模态虚假信息检测的技术。
- EMNLP使用文本和图像进行兴趣点类型预测
本文提出一种方法,利用文本和图像的多模态信息进行 POI 类型(地点类型)预测,该方法从文本和图像中提取相关信息,有效捕捉文本和图像之间的交互,实现了 47.21 的宏 F1 表现,且在八个类别方面显著优于基于纯文本方法的 POI 类型预测 - ICLRMultiModalQA: 文本、表格和图像的复杂问答
本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。
- EMNLP图像对于多模态命名实体识别的角色研究
研究了多模态融合技术在多模态命名实体识别任务中的应用,通过分析不同技巧的融合效果,发现添加图片信息不总是有益的,并探究了使用字幕丰富上下文的作用。在三个社交平台数据集上的实验揭示了现有多模态模型的瓶颈,以及使用字幕的益处。
- EMNLP超越语言:从图片中学习常识进行推理
本文提出了一种从图像中学习常识的新方法,利用双模态序列到序列模型进行场景布局生成任务,并在通感问题回答和代词消解领域实验中证明了新方法的有效性。
- ICML目标中心生成模型中的重建瓶颈
本文探讨了基于 VAE 的 GENESIS 模型中的 “重构瓶颈” 在场景分解中的作用。研究结果表明,这些瓶颈不仅能够决定重构和分割质量,而且还能够对模型行为产生重要影响。
- Whatsapp 上的政治群组中的图片和错误信息:以印度为例
研究 WhatsApp 在 2019 年印度全国选举前期所传播的新闻与谣言,发现约 13%的共享图像为已知的错误信息,并分析了这些图像的类型,当使用机器学习方法预测病毒性图像时,容易受到内容变化的影响。