思维骨架：大型语言模型能够进行并行解码

Jul, 2023

思维骨架：大型语言模型能够进行并行解码

Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang

TL;DR该研究旨在降低大型语言模型（LLMs）的端到端生成延迟，通过提出 “思维骨架”（SoT），该方法通过引导 LLMs 先生成答案的骨架，然后采用并行 API 调用或批量解码来同时完成每个骨架点的内容，从而显著提高速度（在 11 个不同的 LLMs 中高达 2.39 倍），在多个问题类别上潜在地提高答案的多样性和相关性。SoT 是一种以数据为中心的优化方法，展示了提升 LLMs 以更像人类思考的方式来提高答案质量的潜力。

Abstract

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all sta

end-to-end generation latency large language models sequential decoding approach skeleton-of-thought data-centric optimization

发现论文，激发创造

自适应骨架图解码

我们提出了骨架图解码（SGD）方法，利用子问题之间的依赖关系支持信息传递，从而在提高质量的同时暴露出解码独立子问题的并行化机会，通过为每个子问题选择合适大小的模型来提高性能并减少质量损失，相对于标准自回归生成和 Skeleton-of-Thought (SoT) 方法，SGD 实现了 1.69 倍加速，同时提高了 51% 的质量。

Feb, 2024

思维之树：利用大型语言模型进行有意识的问题解决

通过 Tree of Thoughts (ToT) 框架，可以弥补语言模型在考虑多种不同推理路径时的局限性，进而提高语言模型在需要问题解决的任务中的表现。实验表明，使用 ToT 的方法大大提高了语言模型在三个需要非平凡计划或搜索的任务的解决能力：24 点游戏、创意写作和小型填字游戏。

May, 2023

思维图：用大型语言模型解决复杂问题

Graph of Thoughts (GoT) is a framework that advances prompting capabilities in large language models (LLMs) by modeling LLM thoughts as an arbitrary graph, enabling combination, distillation, and enhancement of thoughts, offering advantages over existing paradigms and allowing for extensibility with new thought transformations.

Aug, 2023

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

ThoughtSource：大型语言模型推理数据的中心枢纽

ThoughtSource 是一个 meta-dataset 和软件库，用于处理语言模型在复杂推理方面的局限性，旨在提高未来人工智能系统的质量，通过促进 CoT 的定性理解，实现经验评估并提供培训数据。

Jan, 2023

大型语言模型指导下的思维树

本文提出了 Tree-of-Thought (ToT) 框架，它通过试错的思路来改进自回归大语言模型的问题解决能力。通过增加提示、检查、记忆和控制等模块来实现 ToT 系统。为了验证该技术的有效性，我们基于 ToT 设计了解决数独难题的求解器，实验结果表明，ToT 框架能够显著提高数独难题的成功率。

May, 2023

思维之阶梯：利用知识提升立场检测

通过引入 Ladder-of-Thought (LoT) 来改进 ChatGPT 和 CoT 模型，在提高中间推理过程和使用外部知识的基础上，在立场检测任务中实现了 16% 的改进。

Aug, 2023

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

TransLLaMa: 基于 LLM 的同步翻译系统

经过小规模数据集上的微调后，预训练的开源解码器 - 仅模型可以通过生成特殊的 “等待” 标记直接控制输入分段，从而在同时翻译任务中达到与最先进基准模型相媲美的 BLEU 分数；尚未进行先前训练的闭源模型在此任务中显示出令人鼓舞的结果，为改进未来的同时翻译系统指明了一个有希望的方向。

Feb, 2024

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023