- 大语言模型驱动的文本到图像生成的实证研究与分析
本研究探讨使用大型语言模型作为文本编码器,在文本到图像生成中提高语言理解能力,并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型,通过轻量级适配器实现快速训练,并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量 - 大规模基于 Transformer 的天气预测的训练配方分析与探索
通过在 ERA5 数据上训练经过最小改进的 SwinV2 Transformer 模型,我们展示了即使在相对常规的体系结构、简单的训练过程和适度的计算预算下,也可以实现高水平的预测技巧,并比较了其与 IFS 的优越性。我们对训练流程的关键方 - 通过标签先验使 CTC 强制对齐更加平滑和准确
为了改善 Connectionist temporal classification (CTC) 模型的尖峰行为并提高其在强制对齐生成中的适用性,本文通过利用标签先验知识来增加路径中空白部分较少的对齐得分并在训练中将其最大化,从而使得我们的 - 描述 - 理由:通过视觉理解训练改进多模态数学推理
通过视觉理解训练和数学推理学习,我们提出了一种名为 VCAR 的两步训练方法,以改善多模态大型语言模型在复杂数学推理中的表现。实验证明,VCAR 在高视觉要求的问题上明显优于仅依赖推理监督的基线方法。
- 增强大型语言模型的事实性通过协同解码关键标记
使用协作解码框架来减少语言模型产生幻觉的重要性,通过利用预训练模型中的高度事实性来生成下一个标记,可以有效地降低模型的幻觉发生率。
- 多模态大语言模型(MM-LLMs)的最新进展
综述了过去一年多模态大型语言模型(MM-LLMs)的进展,提供了对 MM-LLMs 的全面调查,包括模型架构和训练流程的设计概述,介绍了 26 种不同形式的 MM-LLMs,并回顾了其在主流基准上的性能以及提升其效力的关键训练方法,同时探索 - 具备稀疏约束的端到端网络剪枝流程
神经网络稀疏化通过减少模型大小、计算复杂度和内存占用的同时保持竞争性能,成为在资源受限设备上部署的有效技术。本研究开发了适应神经网络稀疏化的全程训练流程,利用非标准模型参数初始化、预修剪训练方法和后修剪训练优化等技术,实现了显著提升于当前最 - 在一天内在单机上训练一个大型视频模型
通过优化 IO、CPU 和 GPU 计算,本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道,与之前的工作相比,我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。
- DeepSpeed-Chat: ChatGPT 类模型的容易、快速和经济高效的增强学习训练,适用于各种规模
DeepSpeed-Chat 是一个革命性的系统,它使得 RLHF 训练对 AI 社区更加易用,同时实现了独一无二的效率和可扩展性,使得在记录时间内以极低成本训练百亿参数的模型成为可能。
- DARTS: 基于双注意力参考的超分辨率变换器
我们提出了 DARTS,一种用于基于参考图像的图像超分辨率的 transformer 模型,它通过匹配高分辨率参考图像中学习到的对应关系来增强低分辨率输入图像的内容。我们的工作展示了如何将注意机制应用于基于参考图像的图像超分辨率的特定要求中 - 流场监控下的半监督光流学习
提出了一种在没有 ground truth flows 的情况下实现 fine tuning 的实用方法,该方法基于 self-supervision 和使用 flow supervisor 实现了更稳定收敛和更好的准确性,在 Sintel - 语音识别神经转换器的高效训练
本文提出一个高效的 3 阶段渐进训练管道,能够快速利用有限的计算资源训练出接近最新成果性能的转录模型,证明了每个阶段的有效性,并在 Librispeech 和 Switchboard 训练语料库上进行了实验证明。
- 儿童语音合成的文本到语音处理流程、评估方法和初步微调结果
本研究通过开发和验证训练管道,使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。
- 多目标联合神经网络架构搜索和超参数优化的基线包
本文介绍了一种同时进行神经结构搜索和超参数优化的多目标优化方法,以在训练深度学习模型时提高其性能和效率。
- CVPR远程视觉基础场景直观智能体
本文提出了一个能够模拟人类行为的代理程序,旨在解决 REVERIE 任务,通过两个交叉模态对齐子任务的预训练阶段,即场景定位任务和对象定位任务,再结合记忆增强注意力动作解码器来生成行动序列,证明了本方法的有效性。
- ECCV多帧到单帧:用于三维物体检测的知识蒸馏
本文提出了一种通过知识蒸馏实现基于点云进行三维物体检测的方法,该方法通过两阶段的训练流程,使得在测试时基于低质量数据的模型性能得到提升。