BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal frameworks
搜索结果 - 2
眼球注视导向的多模态对齐框架用于放射学
使用眼动数据来辅助图像和文本特征的对齐,以减少对手动注释的依赖和降低培训成本。同时,探讨了不同量的眼动数据对模型性能的影响,突显将此辅助数据整合到多模态预训练中的可行性和实用性。
PDF
3 months ago
音频自监督学习:综述
本文综述了自监督学习在音频处理和语音处理领域中的应用,包括方法、实验和基准数据,并讨论了未来发展方向和存在的问题。
PDF
2 years ago
Prev
Next