llama models | BriefGPT - AI 论文速递

关键词llama models

搜索结果 - 4

YaRN：大型语言模型的高效上下文窗口扩展
Rotary Position Embeddings (RoPE) 在 transformer-based 语言模型中被证明能够有效地编码位置信息，但这些模型在训练的序列长度之外无法推广。我们提出了 YaRN（另一种 RoPE 扩展方法），
PDF10 months ago
用于复杂结构化医疗任务的本地大型语言模型
本论文介绍了一种将大型语言模型（LLMs）的语言推理能力与本地训练的优势相结合的方法，以解决复杂的领域特定任务。通过从病理报告中提取结构化病情编码，作者演示了他们的方法。研究结果表明，基于 LLaMA 的模型在所有评估指标上明显优于 BER
PDFa year ago
推理时干预：从语言模型中引出真实答案
介绍了一种名为 Inference-Time Intervention 的技术，它通过在有限数量的注意头上遵循一组指南，在推理期间改变模型的激活来提高大型语言模型的真实性，该技术在 TruthfulQA 基准测试中显著提高了 LLaMA 模
PDFa year ago
LLM-QAT: 大型语言模型的无数据量化感知训练
通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
PDFa year ago