- TokenRec: 学习为基于 LLM 的生成推荐摘要生成对应 ID 的方式
为了提高下一代推荐系统的性能,该研究使用大规模语言模型(LLMs)来加强推荐系统,通过对用户和项目进行索引化以保证 LLMs 和推荐对齐,同时引入了一种名为 TokenRec 的新框架,提供了有效的 ID 索引策略和高效的检索方法,能够有效 - MMLU-Pro: 一个更强大和具有挑战性的多任务语言理解基准测试
在大规模语言模型的时代,本论文引入了 MMLU-Pro,这是一个增强的数据集,旨在扩展主要以知识驱动的 MMLU 基准测试,并且在其中集成了更具挑战性且关注推理的问题,从 4 个选项扩展到 10 个选项,同时消除了 MMLU 中的琐碎和噪声 - 基于深度学习的大规模语言模型在自然语言处理任务中的效率优化
通过理论分析大规模语言模型的内部结构和操作机制,探讨 Transformer 及其派生体结构如何在捕获长期依赖时限制计算效率,深入挖掘训练阶段的效率瓶颈,并详细评估自适应优化算法(如 AdamW)、大规模并行计算技术和混合精度训练策略对加速 - 从 ChatGPT、DALL-E 3 到 Sora:生成型人工智能如何改变数字人文研究与服务?
大规模语言模型在数字人文研究中的应用深入探讨,揭示了它们在古籍保护、智能处理和学术创新方面的重要潜力,通过具体案例展示了人工智能在古籍组织、分类和内容生成中的辅助作用,并探索了在艺术创新和文化遗产保护中的应用前景,最后探讨了由人工智能技术引 - 工具呼叫:通过检索增强大型语言模型提升药物咨询
基于检索增强生成(RAG)的大规模语言模型(LLMs)在医学领域的知识密集型任务中表现出显著的性能提升,着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题,并提出了 Distill-Retrieve-Read 框架用于关 - Llama-VITS: 基于语义意识的 TTS 合成增强
最近的自然语言处理(NLP)的进展中,大型语言模型(LLMs)在多个应用方面展现出了出色的高质量文本生成能力。本研究引入了一种创新的方法 Llama-VITS,在文本的语义内容方面通过 LLM 来增强 TTS 综合效果。借助 Llama2 - 无参考摘要的信息论蒸馏
InfoSumm 是一种基于信息理论目标的新型框架,通过互信息来蒸馏出一个强大的摘要器,不依赖于大规模语言模型的能力或人工编写的参考文献,参数仅为 568M,性能竞争力强,在人工评估中超过了领域内监督模型,更胜一筹于 ChatGPT 的可控 - ICLRAffineQuant:大型语言模型的仿射变换量化
基于等效仿射变换的后训练量化方法 (AffineQuant) 扩展了优化范围,显著减少了量化误差,在大规模语言模型上达到了显著的性能提升,并在 PTQ 领域树立了新的技术标杆。
- LLM-PQ:利用多阶段感知分割和自适应量化为异构集群提供 LLM
LLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ 大大提高了推理吞吐量,同时满足用户指定的模型质量 - ACLCEV-LM:控制编辑向量语言模型用于塑造自然语言生成
本文介绍了 CEV-LM,一种轻量级半自回归语言模型,利用约束编辑向量来控制文本的速度、音量和曲折度这三个衡量文本形状的指标,研究表明 CEV-LM 能够更精确地控制这三个指标,同时保持语义内容、使用更少的训练数据和参数。
- 大规模异构图中基于大型语言模型的可扩展链接预测
这篇论文描述了如何将大规模语言模型应用于图学习,提出了 LPNL(通过自然语言进行链接预测)框架来处理大规模异构图上的可扩展链接预测任务,并通过自我监督学习细调了基于 T5 模型的链接预测模型,实验证明 LPNL 在大规模图链接预测任务上表 - 数学语言模型综述
近年来,在数学领域中,利用语言模型(LMs)取得了显著进展,本文从任务和方法论两个不同的角度对数学 LMs 进行了全面的调查和分类,揭示出大量的数学 LLMs 和超过 60 个数学数据集的应用和研究。
- TransformCode: 通过子树转换实现的代码嵌入的对比学习框架
通过使用 Transformer 编码器作为模型的一个关键组成部分并引入了一个名为 TransformCode 的新型框架,该研究论文提出了一种基于对比学习方式学习代码嵌入的方法,并介绍了一种名为抽象语法树转换的新型数据增强技术,从而生成更 - 偏见根深蒂固:个性化指定的 LLMs 中的隐性推理偏见
大规模语言模型(LLMs)个性化与基本推理任务间的影响及深层偏见的研究。
- ICLR测试时间调整强化语言模型
大规模语言模型在很多语言任务上取得了最先进的性能。然而,它们在针对对抗性语言示例时失败了,这些句子被精心优化以欺骗语言模型,但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果,从而修复许多语言对抗攻击,而 - 大规模基础模型与生成型人工智能用于大数据神经科学
机器学习、基础模型、大规模语言模型、神经科学研究、生成性人工智能模型的最新进展以及这些模型在神经科学中的应用。
- 面向音乐大语言模型的基于内容的控制
我们介绍了 Coco-Mulla,这是一种用于音乐大型语言模型的基于内容的控制方法,通过参数高效的微调方法进行训练,在使用少于 300 首歌曲的小数据集进行调整时,相比于原始模型,使用了不到 4% 的参数。我们的方法实现了高质量的音乐生成, - EMNLPALCUNA:大型语言模型迎接新知识
提出了一个名为 KnowGen 的方法来生成新知识,并引入了一个名为 ALCUNA 的基准来评估大规模语言模型在处理新知识方面的能力,发现它们在处理新知识的推理方面表现不佳,并探索了实体相似性对模型对实体知识的理解以及上下文实体的影响。
- 通过利用不确定性感知型上下文学习提高大型语言模型的可靠性
通过引入一种不确定性感知的上下文学习框架,我们改进了大规模语言模型的响应质量,并过滤掉具有较高不确定性的答案,从而提高了模型的准确性。
- 大型语言模型下的程序化文本挖掘
利用大规模语言模型和上下文学习,本研究探讨了从非结构化 PDF 文本中提取程序的问题,结果显示该方法有潜力显著解决深度学习自然语言处理技术中所遇到的数据训练不足的挑战。