- 关于大型多模型模型中 OCR 的隐秘之谜
该论文通过对现有公开的多模态模型进行综合研究,评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能,发现这些模型主要依赖于语义理解进行字识别,对单个字符形状的感知较差,同时对文本长度漠不关心,无法有效检测图像中的细粒度特征 - SUR-adapter:使用大型语言模型增强文本到图像预训练扩散模型
该研究探讨了如何改进文本生成图像的模型的问题,提出了一种称为 Semantic Understanding and Reasoning adapter (SUR-adapter) 的参数高效微调方法,以提高短文本输入的语义理解和常识推理能力 - 神经网络中符号的出现与语义理解及交流
通过提出 SEA-net 方案,使神经网络拥有符号创造、语义理解和通信的能力,并通过符号操作和通信获得新的功能。这些和人脑中的符号生成和理解有着共通的框架,有望在未来生产更加强大的人工智能系统。
- 语义排印的图像化文字
提出了一种基于语言 - 视觉模型和预先训练模型的自动生成 “图像即单词” 的方法,以传达单词的语义概念,并通过优化每个字母的轮廓,确保文本易读性和字体风格的保持。
- 基于混合深度学习技术 (CNN+GRU) 的图像字幕算法
本篇论文主要介绍了一种基于 CNN-GRU 编码器 - 解码器框架的图像描述生成模型,相较于常用的 CNN-LSTM 模型,该模型考虑了图片的语义信息和时间复杂度,且在时间复杂度和准确性上优于目前最先进的 LSTM-A5 模型。
- EMNLPPOQue:针对个体的结果问题询问,以更深入地理解复杂事件
通过预先识别参与者,众包工人能够在语义理解的多个方面中探索并开发模型,从而收集高质量的注释数据集。
- 面向移动人机交互的语义感知环境感知
本篇论文提出了一种基于视觉的移动助理机器人系统,能够在无预先知识的情况下实现语义感知环境,并在一个移动的仿人机器人上进行实际应用测试。
- 图像语义关系生成
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集 - Few-shot 自然语言理解统一 BERT
该研究提出了 UBERT 模型,基于 BERT 框架,可以通过双向仿射网络对不同自然语言理解任务的训练对象进行普遍建模,并通过模型得分来实现各种分类和提取结构的通用、跨任务的语义理解。在 2022 年 AIWIN - 世界人工智能创新大赛中 - 基于无监督多支路胶囊的高光谱和激光雷达分类
本文介绍了一种基于语义理解的多分支高维规范胶囊算法,通过对来自两种不同源数据的 HSI 和 LiDAR 数据的特征进行动态融合,实现了光谱 - 空间 - 高度融合特征的无监督提取,实验结果表明,该模型相较于现有模型具有更好的无监督提取多源遥 - 科学审核器:用于科学事实核查的抽取式布尔问答
本文提出了一种基于多任务学习的科学问题验证方法,该方法结合了信息概括、布尔问答、提取式问题回答和语义理解技术。该方法在欧洲 PMC 的 300 万篇医学和健康领域 OA 文章上,在 BERT 和 RoBERTa 问答模型的实验中,实现了 4 - 基于视角瓶颈的点级监督三维场景解析
本文提出一个自监督的三维表示学习框架,名为视角瓶颈,通过在不同视角下点云上应用基于互信息的目标函数进行优化,以学习极度稀疏标签的模型,该方法不同于过去的对比学习方法,具有易于实现和调整、无需负样本、在下游任务上表现更好等优点,并在公共基准 - MM使用多语言双编码 BERT 学习匹配工作候选人
使用候选人放置历史生成标记的 CV-vacancy 数据集,并使用带有 bi 编码器结构的多语言 BERT 来微调,添加余弦相似度对数损失层,从而实现简历和职位匹配络的可维护和可伸缩的管道,以及学习桥接词汇差距和处理语言障碍的多语言转换器可 - ACL指点还是不指点:深入理解摘要生成器的文本改写技术
本文研究了抽象神经摘要模型中常用的门控机制是如何控制摘要产生的抽象度和拷贝的提取性,并通过实验证明了这种机制在语法边界方面的应用。同时,也发现了抽象神经摘要模型目前缺乏生成都具备抽象和忠实性的释义所必需语义理解能力的问题。
- ACL盲目阅读和行动:文本游戏代理需要语义学
以基于文本的游戏为测试平台,研究了自然语言理解代理的语义理解能力;实验结果表明,在降低语义信息量的情况下,自主代理仍能够在游戏中取得高分,提出了逆动力学解码器来增强语义理解的性能。
- ACLL2C: 描述视觉差异需要对个体进行语义理解
本文介绍了一种 Learning-to-Compare 模型,该模型能够理解两个图像之间的语义结构并学习描述每个图像,从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能,且同时 - ACL监督句法分析对语言理解是否有益?实证研究
本文基于上下文中的先前思路是否明确需监督的句法分析才能实现高层语义理解,通过实证研究检验了监督句法分析在语言模型预训练的 Transformer 网络中应用于语义理解的效用,并通过分析该网络在句法分析中前后的表示空间,得出监督句法分析对最终 - CVPR一种多模态电影场景分割的从局部到全局的方法
为了对电影进行语义理解,提出了一种局部到全局的场景分割框架,其中包含来自三个级别的多模态信息。通过预先训练 MovieScenes 数据集,该框架能够从长片的分层时间结构中提取复杂语义,提供自上而下的场景分割指导,并在实验中取得了高精度的场 - ECCV人类信函共识的 3D 物体语义理解
本文提出了一种基于同一类别不同对象之间的语义对应关系来恢复物体丰富语义信息的方法,同时介绍了 CorresPondenceNet 数据集,通过该数据集训练得到的密集语义嵌入可以促进异构对象的细粒度理解以及跨对象注册和部分对象匹配。
- ICCV3D 场景图:统一语义、三维空间、相机结构
本研究提出了一种基于场景图的三维语义理解方法,构建了一个场景图,包括物体、房间和摄像机之间的关系,同时也提出了一种半自动的框架以减少手动处理的工作量,并增强了现有的检测方法,通过查询图片和多视角一致性实现了更好的检测表现。