- LLAMA:利用学习自动管理算法
LLAMA是一种模块化和可扩展的工具包,用于探索各种不同的算法组合方法,以解决问题域中的任何问题。该工具包实现了文献中最常用的算法选择方法,并利用R语言中的大量机器学习算法和技术。
- LLaMA:开放高效的基础语言模型
介绍了LLaMA,包含7B至65B个参数的基础语言模型,使用公开可用的数据集训练,其中LLaMA-13B在大多数基准测试中优于GPT-3(175B),LLaMA-65B等模型与最佳模型Chinchilla-70B和PaLM-540B相竞争。
- LLaMA-Adapter: 使用零初始化注意力对语言模型进行高效微调
LLaMA-Adapter 是一种轻量级的适应方法,用于高效地对 LLaMA 进行微调,该方法采用一个可学习的适应提示集,将其插入到输入文本标记中的高级 transformer 层中,并提出一种有效地保留其预训练知识的零启动注意机制,以改进 - HuaTuo:基于中医知识优化LLaMA模型
HuaTuo是基于LLaMA模型,使用生成的QA实例进行监督微调,以提高其在生物医学领域任务中的表现,实验结果表明,HuaTuo生成的响应具有更加可靠的医学知识。
- 用于中文 LLaMA 和 Alpaca 的高效有效文本编码
本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战,提出了LLaMA和Alpaca大规模语言模型,通过在中文数据集上进行预训练和指令微调,使其可以更好地执行指令,并通过GitHub开源该项目,为开放研究提 - PMC-LLaMA:在医学论文中进一步微调LLaMA
介绍了PMC-LLaMA, 一种在4.8百万篇生物医学论文上fine-tuning得到的语言模型, 用于注入医学知识, 提高在医学领域的性能, 经过初步试验后在生物医学数据集上表现出更好的理解生物医学特定概念, 在QA基准上表现出高性能。
- LLaMA-Adapter V2: 参数高效的视觉指令模型
本文介绍LlaMA-Adapter V2,是一种解锁更多可学习参数并引入早期融合策略、共同训练数据的参数高效视觉指令模型,可用于多模态推理,对于开放式的视觉指令,具有更强的泛化能力。
- 通过生成性数据增强提高特定领域问答小语言模型的效果:Dr. LLaMA
介绍了 Dr. LLaMA,这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法,主要关注医学问答任务和PubMedQA数据集。研究表明,LLMs 可以有效地改善和多样化问题-答案对,从而在微调后使得规模更小的模型获得更好 - 电信领域中LLMs的能力和局限性观察
本文分析了引入生成式人工智能(AI)的大型语言模型(LLMs)——如OpenAI的ChatGPT、GPT3.5和GPT4、谷歌的Bard、Large Language Model Meta AI(LLaMA)等——在通信界面(特别是企业无线 - 响应长度感知与序列调度:基于LLM增强的LLM推断管道
本文提出了一种高效的大语言模型推理流水线方法,该方法利用大语言模型的潜力来准确感知和预测响应长度,并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理,从而实现了86%的推理吞吐量的提高,同时不影响其效果。该方法是现有工具包(如Fl - 针对特定场景的 LLaMa 多任务指令调节:一项关于写作辅助的初步研究
本文研究了使用指令驱动数据fine-tune的LLMa模型在写作场景下的性能,结果表明持续地使用写作数据对LLMa进行微调,可以显著提高它在写作任务上的表现,并为未来LlMa在特定场景中的微调提供了洞见。
- Goat:Fine-tuned LLaMA 在算术任务上优于 GPT-4
Goat,用LLaMA模型细调后,在一系列算术任务中显著优于GPT-4,特别是在大数字加法和减法方面表现出了非常高的准确性。 对于更具挑战性的任务,如大数字乘法和除法,我们提出了一种根据其可学习性分类任务的方法,并通过利用基本算术原则将不可 - 律师LLaMA技术报告
本文研究了如何在持续训练过程中注入领域知识以及如何设计正确的监督微调任务来帮助模型解决实际问题,在加入检索模块并提取相关文献的情况下,我们的模型可以更可靠地生成答案。
- 巨猩: 与大规模API连接的大型语言模型
本文介绍了Gorilla模型,该模型通过使用基于LLaMA的finetuned技术,在写API调用方面超越了最先进的GPT-4模型。结合文档检索器,Gorilla展示了对测试时间文档更改的强大适应能力,减少了LMM直接提示时出现的幻觉问题, - LLM-QAT: 大型语言模型的无数据量化感知训练
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
- BigTrans:通过超过100种语言的多语种翻译能力增强大型语言模型
本研究提出了 BigTrans,它基于 LLaMA-13B 模型,并通过三个步骤对其进行优化,使其在超过 100 种语言上具备多语翻译能力,初步实验表明,BigTrans 在多种语言上的表现与 ChatGPT 和 Google Transl - Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型
Video-LLaMA是一种多模态框架,通过将预训练的视觉和音频编码器与预训练的大型语言模型结合,实现对视频内容的理解,具有捕捉视觉场景中的时间变化和整合音频-视觉信号等优势,因此被视为具有潜力的音视频AI助手原型。
- 语音识别中零-shot领域调适的大型语言模型启发
本文介绍了两种使用LLaMA的零样本ASR领域适应方法,这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率(WER),特别是,深度LLM-fusion具有更好的实体召回和词汇外 - Flacuna:利用FLAN Fine-Tuning释放Vicuna的问题解决能力
本篇技术报告的主要目的是通过利用VICUNA和FLANMINI数据集,着重调查第三个因素的影响,即通过在FLAN数据集上对VICUNA进行微调来提高问题解决能力,FLACUNA表现明显提高多个基准数据集在INSTRUCTEVAL中的性能。
- LLaMA临床领域参数高效微调
通过有选择地微调部分参数以降低计算需求,提出了一种在临床领域中适应预训练语言模型的方法,并通过与Downstream LLaMA-LoRA相结合,在多个临床预测任务上取得了最先进的AUROC得分提升,并在大规模多标签分类任务中观察到6-9%