- 使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器
本技术报告介绍了我们在音频字幕领域的研究,重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程,并呈现了我们实验的结果,包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音 - 利用预训练的 AudioLDM 实现文本到语音生成:基准研究
本文探讨了使用预先训练的 AudioLDM 模型作为声音生成的 “骨架” 在小数据量场景下实现优异表现的优势,并且比较了不同训练策略对模型性能的影响。同时,为了促进未来的研究,我们还在几个常用数据集上评估了各种文本生成语音系统,以允许公平比 - 基于 YOLO 的工业 4.0 Fischertechnik 模型环境下的目标检测
本文以 YOLO 架构为基础,针对 Fischertechnik 工业 4.0 应用中的流程监控展开研究,通过采用不同大小和复杂度的 YOLO 架构以及不同的先前形状分配策略,结合丰富的数据集进行实验,研究结果表明了所提出方法的有效性及所采 - 关于现场学习的调查
本文概述了大型语言模型的新范式 —— 上下文学习,并探讨了训练策略和演示设计策略等高级技术,以及上下文学习所面临的挑战和未来方向。
- EMNLPTextBox 2.0: 具备预训练语言模型的文本生成库
本研究提出了一个统一、全面的 TextBox 2.0 库,重点关注使用预训练语言模型 (PLMs) 的文本生成,在数据加载、训练和评估等各个方面都提供了便捷的接口,同时实现了 4 种高效的训练策略和 4 种生成目标。经过广泛实验验证,该库易 - ECCVCMC v2:利用辨别性视频先验更准确地检测 COVID-19
本文介绍了我们的解决方案,使用 3D 对比度混合分类网络(CMC v2)和自然视频优先考虑 COVID-19 诊断,同时利用高级训练策略来提高模型的鲁棒性和泛化能力。在第二届 COVID-19 竞赛中,CMC v2 在 14 支参赛队伍中排 - 利用深度学习结合多地区数据进行基于天空图像的太阳能预测:是在本地、全球或通过迁移学习进行模型训练?
本文利用三个异构数据集探索了太阳能预测模型的三种不同训练策略,并比较了局部模型和全局模型的性能,结果表明预训练模型在少量训练数据下可以优于其他两种策略。
- EMNLP通过桥接训练 - 推理差距实现密集短语检索
本研究探讨了如何通过有效验证缩小训练与检索之间的差距并提高稠密检索的性能,在密集短语检索中取得了 2~3 个关键短语检索准确度和 2~4 个段落检索准确度的提升。
- GLM-130B: 一个开放式双语预训练模型
GLM-130B 是一种双语预训练语言模型,拥有 1300 亿个参数。通过本文我们介绍了 GLM-130B 的训练过程、设计选择、训练策略、工程努力、以及它有别于其他模型的独特的可扩展性等特点。我们观察到该模型在学习效率和稳定性方面都有非常 - MM可微分算法学习
本论文探讨了算法监督的概念,提出了一种连续松弛算法的一般方法,定量评估了算法和神经网络的组合对性能和效率的增益,并探讨了在算法中引入可微性的各种不同技术和训练策略。
- 朝着低成本的端到端口语理解
该研究比较了几种学习策略以减少使用自监督模型进行训练的计算时间和能源消耗成本,同时在 FSC 和 MEDIA 语料库上的实验表明,该方法可以在保持最先进性能的同时降低学习成本。
- SimVP:更简单却更好的视频预测
本文介绍了一个被称为 SimVP 的简单的视频预测模型,使用 CNN 构建,仅仅通过 MSE 损失进行端到端的训练,取得了在五个基准数据集上的最新成果,同时通过扩展实验,证明 SimVP 在现实世界数据集上具有强大的泛化能力和可扩展性,大大 - ACL多模态情感分析中模态鲁棒性分析
提出诊断稳健性检查和训练策略,以提高多模态情感分析模型的稳健性和性能,证明可以在不危及原始性能的情况下实现稳健性,是多模态情感分析研究中一个重要组成部分。
- 组合优化的多目标指针网络
这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架,用于有效解决多目标组合优化问题,在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。
- 部分注释数据的命名实体识别
本研究比较了三种部分标注数据集的训练策略以及从维基百科派生新实体类数据集的方法,并针对两个新类别(食品和药物)手动注释测试数据集以验证数据获取和训练方法的可行性。
- Sequence-to-Sequence 情感语音转换概述和分析
本文调查了最近使用序列到序列模型进行情感语音转换的文章,从 6 个方面总结了它们的动机、训练策略、模型架构、数据集、模型输入和评估方法,并为研究人员提供了当前最先进技术的易于理解的概述,最后讨论了序列到序列情感语音转换的现有挑战。
- 重访 RCAN:图像超分辨率的改进训练
该论文重新审视优化 RCAN 模型的不同训练选项对图像超分辨率的影响,指出 RCAN 能够在标准基准上通过适当的训练策略和最小的体系结构修改优化,胜过或匹配几乎所有基于 CNN 的超分辨率架构。此外,该训练发现通过提高训练迭代次数明显提高了 - CVPRDAFormer:用于领域自适应语义分割的网络架构和训练策略的改进
本研究基于最新的神经网络架构研究了无监督域适应(UDA)领域,在语义分割方面揭示了 Transformers 的潜力。基于研究结果,本研究提出了一种新的 UDA 方法 DAFormer,并且通过三种简单却至关重要的训练策略,DAFormer - MM基于深度学习的无线网络资源分配
该研究探讨了一种基于深度学习的二元分配问题的方法,使用神经网络进行可行性解决方案的生成,提出了一种新的 Sinkhorn 神经网络,并使用无监督学习算法解决了网络分配问题,数值结果表明该方法的有效性。
- EMNLP优化 Transformer 效率的技巧
本文提出了多种简单的、不依赖硬件的方法,并将这些方法结合使用,以提高 Transformer 的效率,在 WMT 新闻翻译任务中,我们提高了强 Transformer 系统在 CPU 上的推理效率 3.80 倍,在 GPU 上的推理效率 2