- 使用预训练的 Czech SpeechT5 模型进行零样本与少样本多人说话者语音合成比较
使用 SpeechT5 模型在大规模数据集上进行预训练并在大规模抗干扰的多说话人文本到语音(TTS)任务上进行微调,测试该模型在零和少样本情况下生成合成语音的能力。根据两项听辨测试评估了合成音频质量和合成声音与真实声音的相似度,结果表明 S - 关于语音和音频基础模型在狐猴呼叫分析中的效用
此研究评估了从语音和一般音频领域派生的特征表示,在 4 kHz、8 kHz 和 16 kHz 的预训练带宽上,用于恒河猴叫声类型和叫声识别任务。结果显示,带宽较高的模型提高了性能,并且在语音或一般音频上进行预训练可以获得相当的结果,超过了基 - 主动学习的下游先前领域知识追溯
提出一种下游预训练领域知识回溯方法,利用多样性指标和基于领域的不确定性估计来选择最具多样性和重要性的样本,以构建高质量的标记数据集,实验结果表明该方法在各种应用场景中优于其他最先进的方法。
- UniTE: 预训练 ST 轨迹嵌入的调研和统一流程
为了克服现有方法缺乏全面概述,缺乏统一流程的问题,推进轨迹嵌入的预训练领域的发展,我们提出了 UniTE,这是一个调查研究和针对该领域的统一流程。我们列举了现有的轨迹嵌入预训练方法,并提供了一个统一且模块化的流程,简化了构建和评估轨迹嵌入预 - 探索量化技术以提高 Transformer 语言模型的高效预训练
本研究旨在探索 Quantization 对 Transformer 模型进行高效的预训练的影响,重点关注线性层组件。通过系统地应用直接的线性量化方法于权重、激活值、梯度和优化器状态,我们评估其对模型的效率、稳定性和训练性能的影响。通过提供 - AEMIM:对抗样本与遮蔽图像建模相遇
通过将对抗性示例引入至遮蔽图像建模中,作为新的重构目标,我们提出了一种新的辅助先验任务,旨在增加重构的挑战程度,并提高效率,从而改善模型的表征能力,实验证明我们方法在放大现有遮蔽图像建模方法的泛化性和鲁棒性方面具有显著能力。
- 基于视觉的端到端自主驾驶的 DINO 预训练
本文以模仿学习为背景研究,关注自主驾驶图像感知器的预训练。通过自我监督学习方法(DINO)在驾驶代理的视觉编码器上进行预训练,相比基于分类的预训练方法,该方法在 CARLA 环境中的实验表明具有更高的效率,并与基于视觉地点识别的预训练方法相 - GOFA: 一种用于联合图语言建模的生成型全模型
该论文提出了一种新颖的生成图语言模型 GOFA,通过将随机初始化的 GNN 层与预训练的 LLM 有机结合,实现了在无标签情况下解决结构和语境问题的强大能力。
- H2O-Danube3 技术报告
我们介绍了 H2O-Danube3 系列的小型语言模型,由 H2O-Danube3-4B(预训练数据为 6T 个 tokens)和 H2O-Danube3-500M(预训练数据为 4T 个 tokens)组成。我们的模型在高质量的 Web - 基于 Transformer 的语言模型的自动微调数据剪枝
针对细调任务的训练集,提出了自动数据集修剪方法,基于模型对每个训练数据点的正确分类成功率,通过导航子集大小和评估准确性之间的权衡,实现平均 3 倍缩小的优胜票子集,从而提高模型的评估性能。
- OV-DINO: 统一开放词汇检测与语言感知选择性融合
提出了一种名为 OV-DINO 的新型统一开放词汇检测方法,通过预训练和语言感知融合在一个统一框架中,解决了数据源整合和语言感知能力的挑战,并在各种基准数据集上取得了显著的性能优势。
- 大规模网络挖掘语料在大型语言模型预训练中的挑战综述
本文综述了使用大规模网络挖掘语料库预训练大型语言模型(LLMs)所面临的挑战,包括噪声、内容重复、低质量或错误信息、偏见以及在网络挖掘语料库中包含敏感或个人信息等。解决这些问题对于开发准确、可靠和符合伦理责任的语言模型至关重要。通过对当前的 - 如果不理解就不要使用:通过层间过滤器消除木马
研究找到和解决大语言模型中出现的意外行为的困难,并针对注入的数据毒害特洛伊木马提供了普遍适用的方法以及实际实施方式。
- ECCV在单个 GPU 上可扩展的学习模型池:一种高效的子空间训练策略
本研究提出了一种名为 MEHL-Soup 的内存高效超平面学习汤(Memory Efficient Hyperplane Learned Soup),通过将学习汤弄成一个超平面优化问题,并引入块坐标梯度下降来学习混合系数,从而解决了学习汤由 - ASteISR:高效立体图像超分辨率的单图像超分辨率预训练模型的适应
通过参数高效的微调方法,我们将预训练的单图像超分辨率(SISR)转换网络转移到立体图像超分辨率(SteISR)领域中,并引入了立体适配器和空间适配器。相较于完全微调方法,我们的方法减少了训练时间和内存消耗分别达到 57% 和 15%,并在四 - 摄像机 - 激光雷达跨模态步态识别
在这项研究中,我们提出了首个跨模态步态识别框架,名为 CL-Gait,它使用了双流网络来对相机和 LiDAR 的特征进行嵌入。我们提出了对抗性预训练策略来减轻模态差异,并介绍了一种大规模生成数据的策略。通过实验,我们证明了跨模态步态识别是非 - LegalTurk 多标签文本分类和实体识别的优化 BERT
我们的研究主要致力于通过预训练阶段的修改来提升法律土耳其领域内的 BERT 模型,在法律领域的两个基本下游任务中,即命名实体识别和多标签文本分类,我们的修改的预训练方法在 NER 和多标签文本分类任务中相较于原 BERT 模型展现出了显著改 - TabSketchFM: 面向数据湖的基于草图的表格表示学习的数据发现
提出了一种用于数据湖上的数据发现的神经表格模型 TabSketchFM,通过使用预训练的基于草图的方法提高了数据发现技术的有效性,并展示了在联合、连接或子集搜索中相对于现有神经模型的最先进性能。
- 加强视频语言表示的结构时空对齐
通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。
- BISeizuRe: 基于 BERT 启发的癫痫数据表示以提升癫痫监测
该研究提出了一种新的基于 EEG 的癫痫检测方法,利用一种基于 BERT 的模型。该模型经历了两个阶段的训练过程,分别在 TUEG 和 CHB-MIT 数据集上进行预训练和微调,以提高检测性能。优化后的模型在降低误报率的同时,取得了显著的性