pre-trained large language models | BriefGPT

关键词pre-trained large language models

搜索结果 - 48

关于奖励模型、参数更新和上下文提示的变换
我们展示了三种常用的适应工具的互换性，分别为参数更新、奖励建模和上下文提示，形成了一个三角形框架，建立了六个转换方向，每个转换方向都有助于实现各种应用。我们的工作为现有研究提供了一个整体观点，并提出了潜在的研究方向。我们希望我们的工作成为未
PDF8 days ago
ACL基于数据驱动的诊断字幕引导解码机制
诊断字幕自动生成一份诊断性文本，从一个或多个患者的医学图像（如 X 射线、MRI）中。本论文提出了一种新的数据驱动引导解码方法，将医学信息纳入诊断文本生成过程的波束搜索中，并在两个医学数据集上使用四个诊断字幕系统进行评估。在大多数情况下，所
PDF12 days ago
通过机器遗忘来避免版权侵权
在这篇论文中，我们提出了一种稳定的序列遗忘（SSU）框架，该框架使用任务向量，通过引入额外的随机标签损失和应用基于梯度的权重显著性映射，以更稳定的方式在不同的时间步骤中从 LLMs 中删除受版权保护的内容，实验证明 SSU 在遗忘效果和保持
PDF16 days ago
从容不迫：大型语言模型上上下文窗口扩展的高效配方，持续关注 “中间” 增强
提出了一种称为 CREAM 的方法，通过操纵位置索引插值位置编码，从而实现对预训练大型语言模型的上下文长度进行扩展，并解决长上下文模型面临的 “丢失在中间” 问题。
PDF21 days ago
基于 SVD 的加权剪枝提升上下文学习性能：理论视角
基于 Transfomer 的预训练大型语言模型（LLM）展示了令人惊叹的上下文学习能力（ICL）。在本文中，我们展示了基于 SVD 的权重剪枝可以增强 ICL 性能的有趣现象，并且在深层剪枝权重通常导致浅层性能的更稳定的改善。然而，这些发
PDFa month ago
预训练的大型语言模型使用傅里叶特征计算加法
该研究表明，预训练的大型语言模型使用傅里叶特征进行数字加法，其中 MLP 层主要利用低频特征近似答案的幅度，而注意力层主要利用高频特征进行模块化加法（例如计算答案是奇数还是偶数）。预训练对此机制至关重要，从头开始训练的模型只利用低频特征，导
PDFa month ago
基于提示的无监督关键词提取的初步实证研究
通过实验证明，设计复杂的提示可能并不一定比设计简单的提示更有效，设计的提示中的关键词的改变会影响整体性能，在面对长文档时，设计复杂的提示可以获得更好的性能。
PDFa month ago
使用预训练大型语言模型的零样本垃圾邮件分类
该研究探讨了使用零 - shot 提示的预训练大语言模型（LLMs）在垃圾邮件分类中的应用。通过对著名的 SpamAssassin 数据集进行评估，我们评估了开源模型（Flan-T5）和专有模型（ChatGPT，GPT-4）的性能。我们探讨
PDFa month ago
大型语言模型中的假设检验提示改善了演绎推理
本文介绍了使用不同形式的提示与预训练的大型语言模型相结合，在推理任务中取得了卓越的成果（如思路链提示）。然而，除了在更复杂的推理上进行测试外，这些方法还暴露出无效推理和虚构推理路径等问题。本文开发了一种名为 “假设测试提示” 的方法，在中间
PDF2 months ago
大型語言模型增強的機器學習分類器
利用预训练的大型语言模型 (LLM) 对经典的监督机器学习方法进行增强，以应对分类问题，并提出了几种将 LLM 集成到经典机器学习估计器中的方法，从而进一步提高预测性能。通过标准的有监督学习二分类任务和数据分布发生变化的迁移学习任务，对所提
PDF2 months ago
ICMLCOPAL：大型语言生成模型的持续剪枝
本文提出了 COPAL 算法（COntinual Pruning in Adaptive Language settings）用于在持续的模型适应环境中对大型语言生成模型进行修剪，通过敏感性分析引导修剪过程，从而提高模型适应新领域的能力并增
PDF2 months ago
基于软件工程方法的 AI 驱动的法定推理
近年来，生成人工智能（GenAI）技术的普及，如预训练的大规模语言模型（LLMs），在计算法律领域开辟了新的前沿。本文介绍了在将人工智能应用于法规和合同法中自动化的基于规则推理的激动人心的领域，并提出了几个自动化软件测试和程序分析的概念，这
PDF3 months ago
从词语到数字：在上下文示例中，你的大型语言模型暗自成为一种有能力的回归器
预训练的大型语言模型在给定上下文示例时，无需任何额外训练或梯度更新即可进行线性和非线性回归，发现多个大型语言模型在回归任务上的表现能与传统的监督方法如随机森林、装袋法或梯度提升相媲美甚至更好，此外，通过实证研究发现，大型语言模型的性能与上下
PDF3 months ago
CVPR利用大型语言模型实现免训练视频异常检测
视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法，利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD，通过
PDF3 months ago
揭示 2022 年 ACL 和 EMNLP 会议数据集的趋势
自从采用 Transformer 架构以来，自然语言处理（NLP）已经显著发展。Transformers 催生了预训练大型语言模型（PLMs）。在多个任务中，NLP 系统的性能有了巨大提升，有些情况下甚至超过了人类。然而，事实仍然是，在预训
PDF3 months ago
通过条件问答生成表格的 gTBLS
通过生成表格的两个阶段方法（Generative Tables，gTBLS），从结构化文本中提取表格结构和表格内容，并利用预训练大型语言模型的零样本配置，改进先前方法并在多个数据集上提高 BERTScore 达 10% 至 20%。
PDF3 months ago
S^2IP-LLM: 基于语义空间的 Prompt 学习与 LLM 方法的时间序列预测
利用预训练的大型语言模型（LLM）的语义空间，通过学习从共同空间获得的提示信息，在时间序列嵌入空间中执行时间序列预测，展示了优于现有基准的预测性能，并验证了受语义空间提供的提示学习的必要性。
PDF4 months ago
利用大型语言模型引导枚举式程序合成
本文评估了预训练大型语言模型在解决正式综合基准测试中的能力，并提出了一种将语言模型与枚举综合算法相结合的新颖算法，结果显示该方法在性能上明显优于独立使用语言模型或枚举综合器，以及在 SyGuS 竞赛中取胜的工具。
PDF4 months ago
AXOLOTL: 通过协助自我消除大型语言模型输出的公正性
通过 Axolotl，这一新颖的后处理框架，在不需要直接访问模型内部参数的情况下，与 LLMs 进行交互，通过类似零样本学习的三步过程识别偏见、提出解决方案并引导模型进行自我去偏差，从而降低计算成本并保持模型性能，为广泛应用和易于使用的 L
PDF4 months ago
基于大型语言模型的学习者表现建模
本文探讨了预训练大型语言模型（LLMs）的能力，以及它们在知识跟踪、智能辅导系统领域的应用，研究了两种使用 LLMs 进行知识跟踪的方法，并对其在实际数据集上的性能进行了评估，结果表明 LLMs 能够模拟复杂的学习轨迹，为将 LLMs 应用
PDF4 months ago