pre-trained large language models | BriefGPT

关键词pre-trained large language models

搜索结果 - 48

用于参数高效微调的 Mini-Ensemble 低秩适配器
MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器，用于针对预训练大型语言模型进行性能优化的方法。实验证明，在自然语言理解和指令跟随任务上，相较于低秩适配器 LoRA，MELoRA 在拥有 8 倍较少可训练参数时表现更好，而
PDF4 months ago
激发隐式言论关系注释
对于 ChatGPT 而言，在隐性话语关系分类任务中，使用标准的多项选择问题提示尚不令人满意，且远远不及最先进的有监督方法。本研究通过尝试多种证实的提示技术来提高 ChatGPT 对话语关系的识别能力，但实验结果表明，即使使用复杂的提示工程
PDF5 months ago
基于检索演示的语言模型的上下文学习：一项调查
语言模型特别是预训练大型语言模型，在上下文少例学习方面表现出非凡的能力，能够在输入上下文中仅通过几个示例适应新任务。最近的一个发展是使用对每个输入查询量身定制的示例进行检索，这不仅提高了学习过程的效率和可伸缩性，还能减少手动示例选择中固有的
PDF5 months ago
一次互为胜佳的匹配：当大型语言模型遇上进化算法
本文阐述了预训练的大型语言模型（LLMs）和进化算法（EAs）之间的强一致性，包括多个一对一的关键特性：记号嵌入和基因型 - 表现型映射，位置编码和适应度塑形，位置嵌入和选择，注意力和交叉，前馈神经网络和突变，模型训练和参数更新，以及多任务
PDF5 months ago
用于机器人物体消歧的 LLM
该研究揭示了预训练大型语言模型在机器人领域中有效消除对象歧义和导航决策挑战方面的能力，特别是在与部分可观测马尔可夫决策过程（POMDPs）进行模拟的复杂决策挑战中。通过将大型语言模型整合到桌面环境消除歧义任务中，我们采用了少样本提示工程系统
PDF6 months ago
领域特定的 LLMs 的微调和利用方法
本研究探讨了对预训练大型语言模型（LLMs）进行微调和应用于特定领域的方法，重点关注 LLMs、基础模型和特定领域预训练方法的趋势。针对金融行业，研究详细介绍了数据集选择、预处理、模型选择和金融领域 LLM 微调的关键考虑因素。通过实例展示
PDF6 months ago
大型语言模型作为零样本关键词抽取器的初步实证研究
零 - shot 关键短语提取通过无需人工注释数据来构建关键短语提取器，挑战在于其限制了人工干预，然而零 - shot 设置有效地减少了数据标注所需时间和精力。通过对预训练大型语言模型（如 ChatGPT 和 ChatGLM）的最新尝试，在
PDF6 months ago
以通信成本不超过 18 千字节的方式对数十亿级语言模型进行联邦全参数调整
使用零阶优化技术以及一组随机种子，FedKSeed 提出了一种新颖的方法来在设备上直接对十亿级别的预训练大型语言模型进行联邦全参数调整，从而显著减少了服务器和客户端之间的传输需求，并通过策略评估 ZOO 扰动的显著性，提升模型准确度，我们的
PDF7 months ago
Ophtha-LLaMA2：一款用于眼科的大型语言模型
在医学领域中，通过使用预训练的大型语言模型（LLMs），我们成功构建了一个特别针对眼科疾病诊断的 LLM，名为 “Ophtha-LLaMA2”，并证明了其在眼科诊断中表现出了令人满意的准确性和效率，为眼科医生提供了改进的诊断支持工具。同时，
PDF7 months ago
EMNLP稀疏低秩的预训练语言模型适应
在对大规模预训练语言模型进行提升调优的过程中，我们通过引入稀疏低秩适应性的创新方法（SoRA），使得适应过程中能够动态地调整内在秩，从而提高 LoRA 的表现能力，同时通过更新稀疏方式高效地控制参数数量。实验结果表明，SoRA 在保留 70
PDF7 months ago
零样本情境机器翻译的反语言模型解码
零射一上下文学习是一种模型能够根据指令进行任务处理的现象。该研究提出了一种具有衰减因子的反语言模型目标，旨在解决上下文机器翻译的弱点，并在实验中表现出优于其他最先进解码目标的性能。
PDF8 months ago
使用类人开发数据文集预训练 LLMs
利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
PDF8 months ago
利用模板 - 内容结构解释大型语言模型的复杂任务推理
该论文介绍了一个新的框架，将复杂自然语言任务的答案生成形式概念化为一个层次结构的 “模板 - 内容” 结构，通过对足够大的语料库进行语言建模，从而在自回归生成过程中自动分解任务为组成步骤，并加以解决，从而解释了大型语言模型复杂推理能力的机理
PDF9 months ago
MinPrompt: 基于图的极简提示数据增强用于少样本问题回答
该研究提出了一个基于最小数据增强框架的开放领域问答系统，通过使用近似图算法和无监督问题生成，选择最具信息量的数据集进行微调，从而在效率上实现可比较或更好的准确性，提高了 F-1 分数高达 27.5%。
PDF9 months ago
基于焦点推理融合可处理密度判别的隐式仇恨言论检测
通过结合外部上下文和基于距离的标签分离度量，在预训练大型语言模型（PLMs）的 Fine-tuning 流程中引入了一种名为 FiADD 的新型专注推理自适应密度区分框架，可显著提高对含隐性仇恨内容的检测性能，同时适用于检测讽刺、反讽和立场
PDF9 months ago
GPT-4 大型预训练语言模型在自动化短答案评分中的表现
自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LL
PDF10 months ago
心智对口：关于测量大型语言模型中社会偏见的重新判断不一致性
近期的研究表明，预训练的大型语言模型（LLMs）具有类似于人类观察到的认知结构，促使研究人员探究 LLMs 的认知方面。本文聚焦于心理学中的一个独特两级认知结构，即显性社会偏见和隐性社会偏见。我们提出了一个两阶段的方法，并在 LLMs 中发
PDF10 months ago
RoCo: 大型语言模型下的辩证多机器人协作
我们提出了一种新颖的多机器人协作方法，利用预训练的大型语言模型（LLMs）进行高层通信和低层路径规划，通过机器人之间的交流和集体推理任务策略，并生成子任务计划和任务空间路径，应用于多臂运动规划，以加速轨迹规划，并在环境中提供反馈，如碰撞检测
PDFa year ago
MotionGPT：以人类动作为外语
本文提出了一种统一的，多功能的运动语言模型 MotionGPT，旨在通过将语言数据与大规模运动模型相结合，开发出能够增强涉及运动的任务的预训练模型，实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
PDFa year ago
运用大型语言模型革新网络威胁检测
本文介绍了 SecurityLLM，它是一个旨在检测网络安全威胁的预训练语言模型，其中 SecurityBERT 作为网络威胁检测机制，而 FalconLLM 则是一种事件响应和恢复系统，实验结果表明，我们的 SecurityLLM 模型可
PDFa year ago