- 优化检索增强生成环境中的异常检测
我们在这篇论文中关注减小问题回答系统所需的提示上下文的大小和提高其质量的方法。我们通过使用嵌入向量的距离,提出并评估了几种识别离群点的方法,该嵌入向量是从向量数据库中检索得到的,以及与质心和查询向量的距离有关的特征。通过比较检索到的大型语言 - 再思基于 LLM 的偏好评估
最近,使用大型语言模型(LLM)进行偏好评估已被广泛采用来比较模型回答的优劣。然而,观察到一种严重偏向较长回答的偏差,引发了对这种评估方法可靠性的关注。通过一系列实验,我们设计了这项工作,研究了 LLM-based 偏好评估指标的主要影响因 - RegMix: 以数据混合作为语言模型预训练的回归方法
使用回归模型自动识别高性能的数据混合,通过联合所有领域一起考虑以捕捉复杂性,RegMix 方法超过人工选择,并且仅使用 10%的计算预算实现与 DoReMi 相比匹配或更好的结果。
- 使用大型语言模型生成与 SAPPhIRE 模型相关的技术内容时参考知识选择的影响研究
运用 LLM 技术生成与 SAPPhIRE 因果模型相关的技术内容的方法及其重要的参考知识选择,为构建给定技术系统的 SAPPhIRE 模型提供软件支持工具。
- 使用 10 亿个虚拟角色进行合成数据创建的扩展
我们提出了一种新颖的以人设为驱动的数据合成方法,利用大型语言模型中的各种观点来创建多样化的合成数据。为了在规模上充分利用这种方法,我们引入了 Persona Hub—— 一个从 Web 数据自动筛选得到的 10 亿多样化的人设集合。这 10 - 分子事实:在 LLM 事实验证中的去文脉化要求
大规模语言模型产生的自动事实验证越来越广泛用于对抗幻觉。本研究评估了上下文在这些原子事实中的作用,提出了分子事实的两个标准:去上下文性,即它们能够独立地存在的程度,以及最小性,即为实现去上下文性所添加的额外信息的少。我们量化了去上下文对最小 - IJCAIBADGE:LLM 模型下的羽毛球报告生成与评估
我们引入一个名为 BADGE 的新框架,利用大型语言模型自动生成和评估羽毛球比赛报告,并测试了不同输入数据类型和学习方法。比较评估结果表明 GPT-4 生成的报告更受青睐,为羽毛球报道中应用语言模型提供了基础,并可扩展至其他体育项目,促进体 - 基于学习单调对齐来提高 LLM 语音合成的鲁棒性
基于大型语言模型(LLM)的文本到语音(TTS)系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力,但是基于 LLM 的 TTS 模型并不稳健,因为生成的输出可能包含重复的词、缺失的词和错位的语音(即幻觉或注意力错误) - FineWeb 数据集:对网络进行精细分离以获取大规模最佳文本数据
FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释 - EMNLP变量逐层量化:一种简单而有效的低比特量化迁移学习方法
我们提出了一种简单的变量量化方法,该方法将大型语言模型的不同层在不同的比特级别上进行量化,通过将最重要的层量化为更高比特精度并将不太重要的层量化为较低比特以实现浮点量化级别。
- Grass: 结构稀疏梯度的计算高效低内存 LLM 训练
本研究通过利用稀疏投影将梯度转化为结构稀疏更新,以显著降低优化器状态的内存使用,减少梯度内存占用、计算和通信成本,并实现了与全秩训练和现有投影优化方法相媲美的性能。
- 超越人口统计学:利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐
通过整合从实证人类信念网络中提取的信息,本研究评估了如何改进基于人类行为的大型语言模型(LLM)与人类行为的一致性,结果表明在模拟和理解社会信念分布模式的工作中,将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。
- 一种基于 LLM 的评估自动对抗叙事生成方法的排序方法
使用大型语言模型作为评估者,提出了一种对生成的反话进行评估的新方法,通过在锦标赛格式中对生成的反话进行成对比较,建立了一个模型排名流程,并与人类偏好达到了 0.88 的相关性。此外,通过细致的评估和性能分析,发现以聊天为导向的零 - sho - GenoTEX: 基于 LLM 的基因表达数据探索与生物信息学家对齐的评估基准
通过引入 GenoTEX 作为一个基准数据集,我们展示了 LLM(大型语言模型)方法在基因组数据分析中的潜力,并提出了 GenoAgents 团队作为解决基因数据集任务的基线算法,同时也指出了改进的挑战和方向。
- 基于大型语言模型的事实对话摘要
通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性,我们在对话摘要中取得了更好的事实一致性,同时保持了连贯性、流畅性和相关性。
- 一种大型语言模型优于其他计算方法对医生笔记的高通量表型
本研究比较了高通量表型化的三种计算方法:基于生成式人工智能的大型语言模型(LLM),利用深度学习进行跨度分类的自然语言处理(NLP)方法,以及将词向量与机器学习相结合的混合方法。采用 GPT-4(一种大型语言模型)的方法表现出卓越性能,表明 - AspirinSum: 一个基于方面的实用性保留去识别摘要框架
提出了一个名为 AspirinSum 的基于方面的保用效率的文本去识别框架,通过学习来自现有评论数据的专家方面,能够通过提取与个人敏感方面相关的子句并用类似的方面子句替代来高效地总结个人敏感文件,并最终将去识别的文本用于数据发布,以便进行下 - SynDARin: 用于低资源语言的自动推理数据集合成
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题 - 回答对,并经过自动翻译和质量验证。人类评估显示,生成的英 - 通过模型特征评估对话游戏自对话性能所需参数数量
大型语言模型的好坏取决于其在相关基准测试上的表现,其性能由模型特征(如参数数量、训练方法等)以及训练参数(如微调数据质量等)决定。此外,性能在一定大小范围内表现出广泛变化,受采样参数和推理过程中适度的权重量化影响不确定性较大。
- 利用大型语言模型增强旅行选择建模:一种提示学习方法
通过引入一种基于 Prompt Learning 的大型语言模型 (LLM) 框架,本文改进了个体选择预测的准确性,并提供了明确的解释。在旅行选择分析领域,LLM 显著优于深度学习方法和离散选择模型,同时提供了个体层面的可理解和明确的解释。