Feb, 2023

使用视语言预训练模型提高医学语音转文本的准确性

TL;DR提出一种基于 Vision Language Pre-training 方法的医疗方面的文本校正方法,以解决由于数据不足而难以开发医学领域的语音转文本模型的问题,并展示多模态理解图像和文本信息优于仅使用文本信息的单模态的性能。