语言模型词汇关键表示空间中的关联与导航
简单模型在无监督相似性任务中优于复杂深度网络的实验证据,本文提供了一种基于最佳表示空间的简单而严格的解释,介绍了一种直接的方法,使深度复发模型(DRM)在不重新训练或结构修改的情况下,达到与浅层模型同等或更优的表现。
May, 2018
本研究提出了对于近现代Transformer架构的自回归语言模型的一种准确的每个初始输入token的线性分解,并使用其定义概率分布,以分离出特定的输入token对于后续单词序列的影响;回归实验表明,基于Transformer的语言模型主要依赖于搭配的联想,其次是基于语言学素材的综合推断,例如句法依赖关系和指代关系,以确定下一个单词的概率。
May, 2023
多语言大型语言模型的跨语言迁移学习是重要的,通过对输入嵌入的相似性进行解释,本研究揭示了语言模型的语言表示,在不同模型族的嵌入中存在语言编码和跨语言语义相似性的差异,这为研究预训练和模型架构对语言表示的影响以及嵌入在语言模型中的跨语言表示的应用提供了机会。
Nov, 2023
我们介绍了一种名为“基于词汇定义的语义”的开创性方法,它在语言模型(LMs)的潜空间中建立了一个固定的参考框架,确保了在LM词汇基础上的绝对语义分析。通过广泛的实验,我们的方法超越了检索增强生成和参数有效微调的最先进方法,展示了它的功效和广泛适用性。
Jan, 2024
该研究通过全面而多方位的分析,评估了大型语言模型在各种任务、模型和部署环境下的解码方法的性能表现、对超参数变化的鲁棒性和解码速度,发现解码方法的性能与任务相关,并受到对齐、模型规模和量化等因素的影响。有趣的敏感性分析揭示了某些方法在广泛超参数调节的代价下实现了更优的性能,凸显了在不同环境中实现最优结果与实施实用性之间的权衡。
Feb, 2024
利用渐进式下降算法在NTP训练中获得最佳性能解决方案,研究了梯度下降方法在NTP训练中的偏向性和最优解相关性,并提出了进一步研究的方向,以更好地理解使用NTP进行训练的模型的优化、泛化和鲁棒性原则。
Feb, 2024
大型语言模型 (LLMs) 具备令人印象深刻的自然语言处理能力,但存在虚构结果的问题。最近的研究关注于解码技术,通过利用LLMs的分层表示技术及在推理过程中操纵预测分布,提高真实性。本文通过超出最后一层的关键标记概率外推和基于层次熵的下层选择,解耦选择过程与最后一层之间的关系,实验结果显示非常好的性能,并在多个数据集上大幅领先,分析结果表明不同类型的提示需要不同的选择策略。
Apr, 2024
通过引入词汇单元解码(LUD)方法,本文在不牺牲输出质量的情况下加速解码过程,有效减少生成速度而仍保持生成质量,并提出LUD可能为未来的语言模型定义一种新的解码范式,提升其应用的适用性。
May, 2024
利用Fast and Slow Generating(FS-GEN)统一框架,研究了大型语言模型(LLMs)与小型语言模型(SLMs)之间的协同解码,包括投机解码、对比解码和仿真或代理微调等技术,并通过FS-GEN解析了LLMs和SLMs之间的不同知识能力,揭示了协同交互的比例需求和基于不确定性的有效合作位置。
Jun, 2024
本研究解决了下一标记预测(NTP)如何影响语言模式与模型表示几何属性之间映射的未知问题。通过将大型语言模型的训练框架视为稀疏概率标签向量上的软标签分类,提出了一种新颖的方法来分析单词和上下文嵌入的几何特征。研究发现,NTP隐式地促进了稀疏加低秩结构的学习,可能导致相同下一标记上下文的表示在适当子空间中聚集,这一现象称为子空间崩溃。
Aug, 2024