混合是你所需的一切:更便宜、更好的兆参数 LLM 的替代方案
AI 领域近年来取得了显著的进展,尤其是基于变压器架构的强大大型语言模型(LLMs)的出现。本文介绍了一种创新的 LLM 推理方法,展望了在无需网络连接的情况下,拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手,而且通过原生代码和模型量化技术的结合,还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力,同时保护了用户的隐私并消除了延迟问题。
Sep, 2023
我们提出了一种通用的框架,该框架可以在保持低参数的前提下,同时保持聊天机器人的通用知识和特定领域的能力,并可以在交互中实现无缝转换,并通过对话进行参考跟踪和去除不一致的回应来改善数字助手的交互效果。
Aug, 2021
这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡,旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法,从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具,为 AI 语言建模的可持续和可访问的未来做出了贡献。
Sep, 2023
本文研究大型语言模型(LLMs)对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例,我们展示这些模型具有什么样的功能,并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大,并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。
May, 2023
本文分析了引入生成式人工智能(AI)的大型语言模型(LLMs)—— 如 OpenAI 的 ChatGPT、GPT3.5 和 GPT4、谷歌的 Bard、Large Language Model Meta AI(LLaMA)等 —— 在通信界面(特别是企业无线产品和服务)中应用的能力和局限性,并针对 Craddlepoint 公开数据进行多个用例的比较分析,包括领域自适应、内容连贯性、输入扰动和错误的鲁棒性。我们相信这种评估将为数据科学家提供建立面向领域特定需求的定制对话接口的有用见解。
May, 2023
通过对多个 LLM 模型的研究,本文不仅提供了全面的概述,还明确了现有挑战,并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点,为进一步的探索、增强和创新提供了启示。
Mar, 2024
通过知识融合技术将结构和规模不同的源语言模型(LLM)融合为具有相同结构和大小的目标 LLM,从而实现对聊天 LLM 的融合,该方法在聊天领域中的实验结果表明其在多个尺度上优于其他聊天 LLM 模型,并可达到类似于 Mixtral-8x7B-Instruct 的性能水平。
Feb, 2024
本研究探讨了大型语言模型(LLM)在改进基于流水线的对话代理中的能力,并通过私人银行业务的实例证明了 LLMs 的潜力和公司采用混合方法的好处。
Sep, 2023
本文提出 ChatLLM 网络,利用多个基于 ChatGPT 的对话语言模型协同解决问题的能力,加入了一种反向传递更新系统,展现了这个网络在问题解决方面的显著性能提升。
Apr, 2023
本文通过三种不同的方法,基于大型语言模型(LLMs)对于 ChatGPT 响应的逐轮质量进行预测,并使用动态少量样本来改善基准,并分析了其他两种方法的性能并提出未来研究的改进。研究表明,Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距,但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。
Aug, 2023