auto-regressive language models | BriefGPT

关键词auto-regressive language models

搜索结果 - 9

关于环境学习校准的研究
现代自回归语言模型研究了在上下文学习中，如何在广泛数据上通过预测下一个令牌以最小化对数损失，以获得校准答案。通过大量实验，发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时，性能和校
PDF7 months ago
EMNLPNameGuess：表格数据的列名扩展
最近，大型语言模型在许多领域取得了突破性进展，包括数据库行业。处理大量表格数据时的一个常见挑战是广泛使用缩写列名，这可能对各种数据搜索、访问和理解任务产生负面影响。为了解决这个问题，我们引入了一项名为 NameGuess 的新任务，将列名扩
PDF9 months ago
语言模型不抗拒否定：对否定基准测试的分析
本研究针对 LLMs，比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型，通过实验验证了它们在处理否定句时的局限性，包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
PDFa year ago
生成式语言模型结构修剪中的关键因素是什么？
本文采用常见的结构剪枝方法，包括幅值、随机和移动剪枝，并提出了全球独特的移动剪枝技术（GUM）来减少神经元冗余，以提高自动生成的自然语言的性能。
PDFa year ago
WAVPROMPT: 冻结语言模型进行少样本口语理解
介绍了一种名为 WavPrompt 的语音理解框架，该框架使用预先训练的自回归语言模型，通过微调一种 wav2vec 模型生成一系列音频嵌入来实现在音频文本场景下的 few-shot 学习能力。实验表明，WavPrompt 在执行语音理解任
PDF2 years ago
从数十万亿的标记中检索以提高语言模型
通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件，并创建 Retrieval-Enhanced Transformer（RETRO），该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1
PDF3 years ago
使用冻结语言模型的多模式小样本学习
通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只
PDF3 years ago
ACL开放式语言生成抽样算法的系统特性描述
本研究采用了质量 - 多样性 (Q-D) 折衷方法来研究三种普遍采用的祖先采样算法 (top-k、nucleus 和 tempered sampling) 在无端语言生成任务中的表现，我们证明了现有的采样算法在性能上有相似之处，鉴于此，我们
PDF4 years ago
真实还是虚假？学习区分人造和机器生成文本
本篇论文研究了如何使用预训练的自回归语言模型生成负样本来训练基于能量的模型（EBM）来区分真实文本和自动生成的文本，并探讨了 EBM 的泛化能力及其对负样本产生的影响。
PDF5 years ago