BriefGPT.xyz
Ask
alpha
关键词
autoregressive sampling
搜索结果 - 3
度量感知的 LLM 推理
大语言模型 (LLMs) 在一系列自然语言处理任务上取得了出色的结果,但当前的推理策略对于许多任务和评估指标来说并不是最优的。为此,本研究提出了基于度量感知的 LLM 推理方法,通过决策理论在推理过程中针对特定指标进行优化,我们在学术基准和
→
PDF
4 months ago
结合推测抽样和 KV-Cache 优化的基于 OpenVINO 的生成式人工智能技术的利用
通过使用推断优化和动态执行中的推测采样方法,结合模型优化技术,如量化,可以提供一种优化解决方案。执行过程中利用了 KV 缓存。
PDF
8 months ago
SpecTr: 基于最优传输的快速推理解码
通过将自回归抽样与猜测解码相结合,提出了一种理论上基于最优传输的规范解码方法,通过使用新的选择算法在保证解码质量的情况下获得解码速度的提升。
PDF
8 months ago
Prev
Next