语义解码时代
该研究通过全面而多方位的分析,评估了大型语言模型在各种任务、模型和部署环境下的解码方法的性能表现、对超参数变化的鲁棒性和解码速度,发现解码方法的性能与任务相关,并受到对齐、模型规模和量化等因素的影响。有趣的敏感性分析揭示了某些方法在广泛超参数调节的代价下实现了更优的性能,凸显了在不同环境中实现最优结果与实施实用性之间的权衡。
Feb, 2024
大型语言模型中的词汇语义在不同层次上具有不同的演化形式,较低层次的表示编码了词汇语义,而较高层次的表示则更适用于预测任务。
Mar, 2024
我们提出了一种方法,通过在标记级别交替生成来教授多个大型语言模型(LLM)进行协作。我们将下一个标记由哪个 LLM 生成的决策建模为潜在变量。通过在潜在变量模型下优化训练集的边际似然,基础 LLM 自动学习何时生成自己,并在需要时调用其中一个 `` 助理 '' 语言模型进行生成,无需直接监督。解码过程中的标记级别协作允许以适应特定任务的方式融合每个模型的专长。我们的协作解码在跨领域设置中特别有用,其中广义的基础 LLM 学习调用领域专家模型。在指令遵循、领域特定问答和推理任务中,我们展示了联合系统的性能超过各个模型。通过对学习到的潜在决策进行定性分析,我们展示了使用我们方法训练的模型呈现了几种有趣的协作模式,例如模板填充。我们的代码可在此 URL 找到。
Mar, 2024
本文提出了一种无监督的任务无关方法,将大型语言模型中的语义信息融合进入自监督语音编码器,提高了其在意图分类,名称实体识别及槽填充等方面的性能,使其达到了有监督方法同等的效果,为已有的语音编码器的无监督实现提供了可行性证明。
Nov, 2022
本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价,并提出了二元评价指标:是否精确重构 (ERE) 和语义重构有效性 (SRE),结果表明 GPT-4 可能有效地压缩和重构文本,并保留原始文本的语义要素。
Apr, 2023
通过引入分层解码器网络与中间监督任务,结合目前的 PLMs 构建了一种在语义解析任务中实现更好的性能与内在可解释性的方法。
Oct, 2022
利用密度演化分析,我们提出了一种数学理论来解释学习技能的产生,当训练文本的大小与技能数量的比例超过一定阈值时,展示了学习技能的出现。在训练完成后,我们提出了一种语义压缩方法,并讨论了其在语义通信中的应用。
Apr, 2024
通过对大型语言模型的研究,发现在训练过程中提高计算能力可以取得更好的结果,然而对于推断阶段提高计算能力的好处却没有得到足够的关注。本文调查了推断阶段的几种方法,包括基于令牌级别的生成算法、元生成算法和高效生成方法,并从传统自然语言处理、现代大型语言模型和机器学习系统的角度统一了观点。
Jun, 2024
基于编码器 - 解码器框架的当代翻译引擎发展迅猛,而大型语言模型的出现破坏了它们的地位,提供了实现更优翻译质量的潜力。因此,了解 LLMs 是如何在何种场景下胜过传统 NMT 系统,以及如何发挥其优势,变得至关重要。本文首先进行了全面分析,评估了各种商业 NMT 系统和面向机器翻译的 LLMs 的优势和局限性。发现 NMT 系统和面向机器翻译的 LLMs 都不能有效解决所有翻译问题,但面向机器翻译的 LLMs 可以作为 NMT 系统的有希望的补充。基于这些发现,我们探索了混合方法,并提出了合作解码(CoDec)将 NMT 系统视为预翻译模型,将面向机器翻译的 LLMs 视为处理 NMT 系统无法覆盖的复杂场景的补充解决方案。在 WMT22 测试集和新收集的 WebCrawl 测试集上的结果表明,CoDec 的有效性和效率,突出了将 NMT 系统与面向机器翻译的 LLMs 相结合作为强大解决方案的潜力。
Nov, 2023