混合是你所需的一切：更便宜、更好的兆参数 LLM 的替代方案

Jan, 2024

混合是你所需的一切：更便宜、更好的兆参数 LLM 的替代方案

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp

TL;DR研究表明，通过 “混合” 策略集成多个中小型模型可以在不增加计算资源需求的情况下，实现与较大型模型相媲美或超越其性能指标。

Abstract

In conversational ai research, there's a noticeable trend towards developing models with a larger number of parameters, exemplified by models

conversational ai models blending smaller models performance

发现论文，激发创造

革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM

AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手，而且通过原生代码和模型量化技术的结合，还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力，同时保护了用户的隐私并消除了延迟问题。

Sep, 2023

低资源开放领域生成式聊天机器人的适应

我们提出了一种通用的框架，该框架可以在保持低参数的前提下，同时保持聊天机器人的通用知识和特定领域的能力，并可以在交互中实现无缝转换，并通过对话进行参考跟踪和去除不一致的回应来改善数字助手的交互效果。

Aug, 2021

大规模生成语言模型是否需要数十亿参数？

这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡，旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法，从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

Sep, 2023

ChatGPT 能力概览及其对 AI 研究的影响

本文研究大型语言模型（LLMs）对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例，我们展示这些模型具有什么样的功能，并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大，并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。

May, 2023

电信领域中 LLMs 的能力和局限性观察

本文分析了引入生成式人工智能（AI）的大型语言模型（LLMs）—— 如 OpenAI 的 ChatGPT、GPT3.5 和 GPT4、谷歌的 Bard、Large Language Model Meta AI（LLaMA）等 —— 在通信界面（特别是企业无线产品和服务）中应用的能力和局限性，并针对 Craddlepoint 公开数据进行多个用例的比较分析，包括领域自适应、内容连贯性、输入扰动和错误的鲁棒性。我们相信这种评估将为数据科学家提供建立面向领域特定需求的定制对话接口的有用见解。

May, 2023

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

FuseChat：聊天模型的知识融合

通过知识融合技术将结构和规模不同的源语言模型（LLM）融合为具有相同结构和大小的目标 LLM，从而实现对聊天 LLM 的融合，该方法在聊天领域中的实验结果表明其在多个尺度上优于其他聊天 LLM 模型，并可达到类似于 Mixtral-8x7B-Instruct 的性能水平。

Feb, 2024

使用大语言模型增强基于流水线的会话代理

本研究探讨了大型语言模型（LLM）在改进基于流水线的对话代理中的能力，并通过私人银行业务的实例证明了 LLMs 的潜力和公司采用混合方法的好处。

Sep, 2023

ChatLLM 网络：更多的智能，更多的大脑

本文提出 ChatLLM 网络，利用多个基于 ChatGPT 的对话语言模型协同解决问题的能力，加入了一种反向传递更新系统，展现了这个网络在问题解决方面的显著性能提升。

Apr, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023