- 听触:面向丰富接触操控的音频 - 视觉预训练
通过使用接触式麦克风作为替代触觉传感器,本文介绍了第一种利用大规模多模态先前训练进行机器人操作的方法,通过从大规模音频 - 视觉先前训练中获取表示来提高机器人操作的性能。
- 克服知识障碍:基于预训练世界模型的在线模仿学习
通过预训练和微调等方法,将计算机视觉和自然语言处理领域的成功范式引入到决策过程中已成为近年来越来越受欢迎的研究方向。本篇研究主要探讨了使用预训练模型进行观察性仿真学习,发现现有的方法在应对环境体验知识障碍和示范知识障碍方面存在局限,限制了其 - ICML特征分布偏移消减的对比预训练方法用于入侵检测
基于 SwapCon 模型,我们提出了一种在预训练阶段压缩移不变特征信息并在微调阶段精细调整的机器学习模型,证明这种预训练范式在网络入侵检测问题中可以提高对特征分布变化的鲁棒性超过 8%,并且比基于 eXtreme Gradient Boo - PARAMANU-GANITA: 具备数学能力的语言模型
Paramanu-Ganita 是一种基于 208 百万参数的全新 Auto Regressive (AR) 解码器的数学语言模型,该模型在数学语料库上进行了从头预训练,在困惑度度量和 GSM8k 数学基准测试中表现出色,优于多个专业和通用 - ACL语言的更多空间:探究检索对语言模型的影响
利用 “理想检索” 方法研究检索增强语言模型,评估检索增强对语言模型行为的影响,观察到这些模型在权重保存方面具有更少的世界知识,在理解局部上下文和词间依赖方面表现更好,但在理解全局上下文方面表现更差。
- BERT-LSH: 减少 Attention 的绝对计算量
本研究介绍了一种新颖的 BERT-LSH 模型,其中包含 Locality Sensitive Hashing(LSH),用于近似 BERT 架构中的 attention 机制。我们对该模型与标准基准 BERT 模型的计算效率和性能进行了检 - 语言模型的减肥计划:通过额外预训练进行相关语言编码器的成本高效开发
我们研究了利用现有的多语言模型进行额外预训练,以确保在克罗地亚语、塞尔维亚语、波斯尼亚语和黑山语这几种密切相关的语言集合中存在具有 10 亿参数的编码器模型的最佳方法,结果显示即使计算量有限,额外预训练可获得与从头开发的模型相当的性能,同时 - 多语能力的祝福:Poro 34B
通过多语言训练,研究引入了 Poro 34B 模型,该模型具有 340 亿个参数,并使用 1 万亿个标记的芬兰语、英语和编程语言进行训练,证明了多语言训练方法可以显著改进现有的芬兰语模型,并在翻译和生成英语和编程语言方面具有竞争力。
- 搜索流(SoS):在语言中学习搜索
该论文提出了一种通过使用一种表示搜索过程的扁平字符串(搜索流)来教授语言模型进行搜索的方法,并通过使用启发式求解器生成的搜索流数据集从头开始预训练一个基于 Transformer 的语言模型来展示该方法的有效性。论文进一步使用 Advant - 模型崩溃是否不可避免?通过积累真实和合成数据打破递归的诅咒
本文探讨了生成模型在其自身生成的输出上进行训练时可能导致的模型崩溃问题,并通过理论和实证研究表明数据的积累可以缓解模型崩溃的问题。
- 巧妙之道:利用下游分析能力导航大型语言模型预训练
通过详细分析不同预训练模型中的不同能力表现,我们确认了特定下游指标在不同大小的模型中展示相似的训练动态,多达 670 亿参数。此外,我们还复现了 Amber 和 OpenLLaMA,并发布了它们的中间检查点,以为研究界提供宝贵的资源,促进对 - DailyMAE:朝着一天内预训练掩膜自编码器
本研究提出了有效的训练方案,以降低数据加载瓶颈和维持预训练性能,实现了高效的自监督学习训练,为更广泛的可访问性和推动自监督学习研究的进展铺平了道路。
- Latxa: 为巴斯克语建立的开放式语言模型和评估工具套件
我们介绍了 Latxa,这是一系列从 7 到 700 亿参数的巴斯克语言模型。Latxa 基于 Llama 2,并在新的巴斯克语语料库上进行持续预训练。我们还引入了 4 个多项选择评估数据集,并在广泛的评估中,Latxa 在各个方面的性能都 - LocCa:具有位置感知字幕的视觉预训练
在本文中,我们提出了一种简单的可感知位置的图像预训练方法(LocCa),它使用一个简单的图像标题生成任务接口,在图像像素输入的条件下教导模型以读取丰富的信息,如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力,我们展示了图像标题 - LLM 预训练中的基于贝叶斯优化的检查点合并
我们提出了一种在预训练大型语言模型中合并检查点的方法,通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重,实验证明我们的方法在最大限度减少成本的同时增加了预训练能力,并展示了跨多个领域的强大泛化能力。
- 孪生视觉变压器是可扩展的音频视觉学习器
通过使用音频 - 视觉连体网络(AVSiam)进行高效可扩展的音频 - 视觉预训练,本研究采用了单个共享视觉变换器骨干,提高了参数效率,减少 GPU 内存占用,并允许扩展到更大的数据集和模型尺寸。与先前的音频 - 视觉方法不同,我们的方法能 - 智能学习速率分配以减少转换器中的灾难性遗忘
在这篇论文中,我们研究了 transformer 神经网络中灾难性遗忘的问题,并对使用相同学习率进行整个网络微调的普遍做法提出疑问。我们通过超参数优化过程找到了比平坦学习率更好的学习率分布,并结合这些学习率分布,展示了它们在灾难性遗忘问题上 - 通过自监督预训练实现噪声鲁棒的关键词检测
使用自我监督学习(SSL)预训练算法 Data2Vec 可以提高关键词识别(KWS)模型在嘈杂环境下的鲁棒性。
- Juru:来自可靠来源的巴西合法大型语言模型
通过领域专门化和高质量数据预训练,我们研究了大语言模型的高计算成本问题,发现领域专门化可以降低预训练数据量,但会牺牲同一语言中其他知识领域的性能。这一研究有助于证明预训练数据的选择可以提升大语言模型的性能,从而降低研究成本。
- Elysium:透过 MLLM 探索视频中的物体层次感知
通过在大型视频数据集上进行大规模预训练,我们提出了一种全新的多模态大型语言模型(MLLM),名为 Elysium,该模型可以在视频中进行物体级任务,而无需任何其他插件或专家模型。