BriefGPT.xyz
Ask
alpha
关键词
multi-modal text recognition
搜索结果 - 1
逐步融合:基于语言模型的多模态文本识别的生成式融合解码算法
我们引入了 “Generative Fusion Decoding”(GFD),这是一种新颖的浅层融合框架,用于将大型语言模型(LLMs)集成到自动语音识别(ASR)和光学字符识别(OCR)等多模态文本识别系统中。通过将文本令牌空间映射到字
→
PDF
2 months ago
Prev
Next