为 OOV-STR 设计的视觉语言自适应互补解码器

ECCVSep, 2022

为 OOV-STR 设计的视觉语言自适应互补解码器

Vision-Language Adaptive Mutual Decoder for OOV-STR

Jinshui Hu, Chenyu Liu, Qiandong Yan, Xuyang Zhu, Fengli yu...

TL;DR该研究提出了一种名为 VLAMD 的框架，该框架基于深度学习，利用语言先验知识，设计了一种针对 OCR 中存在的 Out-of-vocabulary 问题的解决方案，其中包括注意力 LSTM 解码器，自回归转换器解码器和双向训练方法，该方法在 2022 ECCV TiE Workshop 的 OOV-ST 挑战中表现出良好的性能。

Abstract

Recent works have shown huge success of deep learning models for common in vocabulary (IV) scene text recognition. However, in real-world scenarios, out-of-vocabulary (OOV) words are of great importance and SOTA

deep learning out-of-vocabulary language prior attention-based lstm decoder mutual sequential decoding

发现论文，激发创造

VI-OOD：文本外分布检测的统一表示学习框架

使用 Transformers，本文提出了一种针对文本型 OOD 检测的新颖变分推断框架（VI-OOD），通过有效利用预训练 Transformers 的表示，最大化联合分布 $p (x, y)$ 的似然度，从而解决了现有 OOD 检测方法中出现的问题。通过对多个文本分类任务的广泛实验，VI-OOD 展示了其高效性和广泛适用性。

Apr, 2024

聚焦于 OOV：如何变化它们？

我们的研究聚焦于词形屈折在词汇外条件下的问题，通过开发三个系统并测试在词汇外数据集上的性能，我们发现逆行模型在现实情境下的词汇外数据上胜过了所有神经模型，并且由我们的 seq2seq 模型在 SIGMORPHON 2022 共享任务数据的大数据条件下达到了最先进的结果。

Apr, 2024

针对槽位填充的词汇外问题的再探：一种综合对比框架，配有多级数据增强

本文介绍了一种基于多层数据扩增的 OOV 坚韧性槽填充模型，通过从词和槽的角度解决 OOV 问题。实验表明，该模型比现有模型和之前的最佳模型在 OOV 词和槽方面表现更出色。

Feb, 2023

VioLA: 面向语音识别、合成和翻译的统一编解码器语言模型

本研究提出了 VioLA 模型，它是一个单自回归 Transformer 解码器网络，通过多任务学习框架，将涉及语音和文本的各种跨模态任务统一为条件编解码器语言模型任务。该模型通过离线神经编解码器将所有语音话语转换为离散标记，进而将所有任务转换为基于标记的序列转换问题，进而自然地使用一个条件语言模型处理。研究表明，VioLA 模型可良好地支持单模和跨模任务，并且解码器模型优于强基线性能。

May, 2023

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

使用预训练的视觉语言模型进行负标签引导的 OOD 检测

我们提出了一种名为 NegLabel 的新型事后 OOD 检测方法，该方法利用来自广泛语料库数据库的大量负标签，并设计了一种与负标签合作的 OOD 得分方案。通过理论分析，帮助理解负标签的机制。大量实验证明，我们的方法 NegLabel 在各种 OOD 检测基准数据集上实现了最先进的性能，并且在多种视觉语言模型中具有良好的泛化能力。此外，我们的方法 NegLabel 对于各种领域变化表现出了显著的鲁棒性。

Mar, 2024

强调未见过的单词：端到端语音识别的新词汇习得

本篇论文提出了一种利用文本到语音系统生成 OOV 单词并通过损失调整和正则化实现语音识别系统的持续学习，并且相比于之前的方法，该方法可以实现更高的召回率和更高的准确性。

Feb, 2023

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

利用视觉语言表示探究外域检测

该研究提出 Maximum Concept Matching（MCM）这一零样本的多模态算法来识别异常数据，利用视觉特征与文本概念进行对齐。研究发现 MCM 比单模态算法在效果上更为优秀，特别是结合视觉 - 语言特征时。

Nov, 2022

针对未登录词的少样本表示学习

本文提出了一种基于少样本回归的新型分层注意力神经网络结构来解决训练集中不存在的词导致词向量精度下降的问题，实验表明该方法在学习 OOV 词嵌入方面具有优越性。

Jul, 2019