model scales | BriefGPT - AI 论文速递

关键词model scales

搜索结果 - 4

IJCAI利用逻辑背景知识改进基于神经网络的分类
我们提出了一种新的用于有命题背景知识的监督多标签分类的形式化方法，称为推理中的语义调整，其在推理过程中限制系统而不影响训练，相比于另外两种常见的神经符号技术（语义调整和语义正则化），我们讨论了其在理论和实际上的优势，并开发了一种新的多尺度方
PDF4 months ago
Astraios: 参数高效调整代码的大规模语言模型
基于 28 个调优方法和 4 个模型尺寸，通过对 5 项任务和 8 个不同数据集的研究，我们发现完全参数微调通常在所有尺度上都能提供最佳的下游性能，并且参数高效微调方法在模型规模上的功效存在显著差异。然而，LoRA 方法通常在成本和性能之间
PDF6 months ago
MCC-KD: 多 CoT 一致知识蒸馏
通过 Multi-CoT 一致知识蒸馏 (MCC-KD) 方法，我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法，并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。
PDF8 months ago
多标签文本分类的上下文学习
利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类
PDF9 months ago