- 大型语言模型是低样本图像分类的良好触发器学习者
通过整合大型语言模型(LLMs)提升预训练视觉 - 语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
- 利用大型语言模型高效预测单点突变对蛋白质稳定性的影响
利用大型语言模型(LLM),我们引入了一种 ESM 辅助高效方法,将蛋白质序列和结构特征整合在一起,以预测单点突变引起的蛋白质热稳定性变化,并且我们设计了一个经过细致筛选的数据集,以避免数据泄漏,以便更公平地进行模型比较。
- 超越表面:探测不同尺度和层级的 LLaMA
本文详细分析了大型语言模型(LLMs),重点关注自然语言处理中一种重要的开源基础模型 LLaMA。通过设计选择题任务来评估 LLaMA 在高阶任务(如推理和计算)中的内在理解能力。我们水平对比不同大小的模型,垂直评估不同层次的模型,并揭示了 - 一个用于并行函数调用的 LLM 编译器
通过并行函数调用的 LLMCompiler,实现了 Latency 速度的提升,成本的节省和准确性的改进,同时在并行函数调用方面表现优异。
- CLadder: 评估语言模型因果推理能力的基准
通过创建一个新的自然语言处理任务,基于因果图和问题,研究大型语言模型在因果推理方面的能力,并提出一种特定的激励策略来评估和分析这种推理能力。
- 加固关注中的最短支点:增强大型语言模型的上下文感知能力以实现有效的工具使用
提出了一种名为 Attention Buckets 的新推理方法,通过并行处理每个过程来处理上下文,每个过程都具有独特的 RoPE 角度基准,塑造了注意力波形,从而保证了模型不会错过注意力凹槽内的重要信息,从而增强了 LLMs 的性能。
- LaMPilot:一个用于自动驾驶的开放基准数据集与语言模型程序
我们提出了 LaMPilot,一个新颖的自主驾驶规划框架,将任务重新定义为一个利用已建立的行为基元的代码生成过程,旨在解决解释和执行 spontanous 用户指令(如 “超过前面的车”)的挑战,这通常对现有框架构成困难。我们介绍了 LaM - 数学家的大型语言模型
大型语言模型(LLMs)如 ChatGPT 因其通用的语言理解能力而备受关注,尤其是它们生成高质量文本或计算机代码的能力。在本文中,我们讨论它们在何种程度上可以辅助数学专家,并提供了现代语言模型中使用的变压器模型的数学描述。基于最近的研究, - 分析 LLMs 的内在响应倾向性:现实世界的指令驱动越狱
在本研究中,我们引入一种新型越狱攻击方法(RADIAL),通过两个步骤:1)固有回应倾向分析:分析大型语言模型对真实世界指令的固有肯定和拒绝倾向。2)真实世界指令驱动的越狱攻击:根据我们的分析,我们选择若干真实世界指令,并嵌入恶意指令以扩大 - 利用大型语言模型进行超参数优化
使用大型语言模型(LLMs)在超参数优化(HPO)期间进行决策,在有限搜索预算的情况下,通过实证评估发现,LLMs 在标准基准测试上可以表现与传统 HPO 方法(如随机搜索和贝叶斯优化)相当甚至更好。此外,我们提出将定义模型的代码作为超参数 - LLM 的两面:杰基尔博士与海德先生
利用对抗性角色,绕过 ChatGPT 和 Bard 聊天机器人的安全机制,使用大型语言模型结合聊天助手应用的技术,模仿提供禁止回答的信息,实现获取未经授权、非法或有害信息的攻击。
- 用均值居中改进语言模型中的激活引导
通过应用均值中心化的思想,我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值,可以得到有效的转向向量,这在广泛的上下文中可以轻松改善激活转向的有效性。
- SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB - 高效大型语言模型:综述
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型 - Holmes: 面向集群间具有异构 NIC 环境的分布式训练
Holmes 是一个专门为 LLMs 设计的训练框架,通过巧妙构建数据和模型并行策略,在异构 NIC 环境下实现了可扩展性,并在大多数情况下达到接近 RDMA 网络性能的学习效率,同时与其他主流 LLM 框架无缝集成。
- 从文字思考(TFW):通过文字思考在大型语言模型中引发类似人类认知的方法,用于日文文本层级分类
我们的研究旨在弥合大语言模型(LLMs)和人类思维过程之间的差距,通过理解个别单词开始,将信息传达至整个文本,我们通过引入 “Think from Words”(TFW)和 “TFW with Extra word-level inform - 不是所有大型语言模型(LLM)都屈服于 “逆转诅咒”:BERT 和 GPT 模型推理能力的比较研究
在这项研究中,我们探讨了大规模语言模型在逻辑推理方面的局限性,发现 ChatGPT 等自回归解码器训练模型在 'A 是 B' 的任务中往往无法学习到 'B 是 A',从而揭示了它们在逻辑演绎上的失败。我们的研究不仅对双向语言模型 BERT - PneumoLLM: 利用大型语言模型进行尘肺病诊断
传统的预训练和微调范式在常见疾病数据丰富的情况下有效,但在像尘肺这样的数据稀缺的职业病诊断中面临挑战。我们通过消除文本分支并将对话头替换为分类头的方式创新,在诊断中利用少量可学习参数更有效地利用大型语言模型。此外,为了在保留详细图像信息的同 - GPT 与人类在科学评论中的对比:ChatGPT 在科学领域的应用的双重来源评论
新型多面手大语言模型可通过分析大量数据加快科学评审,使用更无偏的定量度量指标,促进跨学科的联系,确定新兴趋势和研究领域,并通过评估大量数据来识别的方法,但目前它们缺乏对复杂方法的深入理解,评估创新性的主张存在困难,并且无法评估伦理问题和利益 - 大型语言模型的出现如何影响科学实践?
大型语言模型越来越多地被纳入科学工作流程中,但我们还没有完全掌握这种整合的影响。大型语言模型的出现应该如何影响科学实践?本观点文章邀请了四组不同的科学家来思考这个问题,分享他们的观点并进行辩论。