- LLM 在低资源翻译中的缺陷:检索和理解均为问题
本研究通过一系列实验翻译南安第斯克丘亚语为西班牙语,探究预训练大型语言模型在自动化机器翻译中从低资源语言到高资源语言的上下文学习能力。实验结果表明,即使是相对较小的语言模型,在提供了足够相关语言信息的情况下,能够通过提示上下文实现零样本低资 - 信赖 PRoC3S:使用 LLMs 和约束满足解决长时程机器人问题
通过预训练的大型语言模型(LLM)在机器人学中的应用,探讨了 LLM 规划连续参数化技能集合的能力,以避免违反一系列运动学、几何学和物理学约束条件,通过采样或优化来解决连续约束满足问题,并通过实验验证了提出的 PRoC3S 策略在解决复杂操 - 使用熵激活控制大型语言模型代理
研究表明使用预训练的大型语言模型作为上下文学习代理是有前途的,但由于其存在过度自信和不足的探索性行为,需要引入一种激活导引方法以增加不确定性并控制代理对决策的表示方式。
- IGOT:针对域自适应预训练的信息增益优化分词器
使用信息增益优化的分词器 (IGOT) 在特定领域下进行持续预训练可提高训练效率与性能,降低收敛半径与收敛点。
- LLM2LLM:利用新的迭代数据增强提升 LLM 模型
使用以预训练大型语言模型(LLM)为基础的 LLM2LLM 方法,通过数据增强和迭代,显著提高 LLM 在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的 LLM 解决方案铺平了道路。
- PERL: 从人类反馈学习的参数高效强化学习
使用参数高效的强化学习(PERL)方法,研究了从人类反馈中进行增强学习的方法,该方法能够降低计算复杂度并提高模型的性能,为大型语言模型的对齐技术提供了可能性。
- KDD长尾知识的自动问答生成
通过预训练大型语言模型解决普适领域问答中的常见知识和罕见长尾知识学习难题,我们提出了一种自动生成专门用于长尾知识的问答数据集的自动方法,并展示了相关的研究挑战。通过预训练语言模型,在我们新生成的长尾问答数据集上进行了详尽实验,比较了其使用维 - 大规模多元文化知识获取与语言模型基准测试
通过从维基百科文献到链接页面的导航,建立文化知识的多元多样化采集方法与 CultureAtlas 数据集,该数据集涵盖了各种亚国家地理区域和族群,用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型,以促进数字领域中全球 - BiLLM: 提高 LLM 后训练量化的极限
BiLLM 是一种创新的 1 位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理,超过了 LLM 的 SOTA 量化方法。此外,BiLLM 能够在单个 GPU 上在 - 探索大型语言模型中图推理的局限性
预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而,在本文中,我们通过图形推理问题测试了 5 种不同的 LLMs(GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2)的图形推理深度。我们设计 - 重复之我见:变压器优于状态空间模型的复制
在这篇论文中,我们研究了使用不依赖于序列长度的固定大小的潜在状态的模型(我们将其称为 “广义状态空间模型”(GSSMs))与 transformer 模型在需要从输入上下文中进行复制的任务上的性能差异。我们从对简单的字符串复制任务的理论分析 - LLMs 学习动力系统的控制原则,揭示上下文中的神经缩放定律
预训练的大型语言模型(LLMs)在进行零 - shot 任务(包括时间序列预测)时表现出惊人的效果,本文研究了 LLMs 在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示 LLaMA2 在无需微调或提示工程的情况下能准确预测动力 - TAROT:基于半结构化数据进行多任务预训练的分级框架以实现有效的人 - 岗匹配
TAROT 是一个层次化的多任务共同预训练框架,旨在更好地利用结构和语义信息进行信息性文本嵌入,通过针对个人资料和工作的半结构化文本的多层次预训练任务限制获得的语义信息。在真实的 LinkedIn 数据集上进行的实验证明了 TAROT 在人 - 金融情绪分析的预训练大型语言模型
金融情感分析是将金融文本内容分类为情感类别(如积极、消极和中性)。本文聚焦于金融新闻标题的分类,通过利用预训练的大型语言模型以及监督微调技术,实现在少量训练样本情况下显著超越之前最先进的算法。
- 步骤步骤实现公平:在面向任务的对话系统中归因社会偏见
使用预训练的大型语言模型,本文提出了一种诊断方法来确定任务导向对话系统中每个组件的偏见,并通过实验结果表明这种偏见主要来自回应生成模型。
- EMNLP使用零射击启发局部差分隐私文档生成
使用 DP-Prompt 及类似 ChatGPT 的强大语言模型在 IMDB 数据集上进行实验,发现其能够有效减少 de-anonymization 攻击成功率,并在与现有方法相比设计更简单的情况下,完全恢复了清洁情感 F1 分数,同时在对 - PoisonPrompt: 基于提示的大型语言模型的后门攻击
本文研究了基于提示的大语言模型存在的后门安全威胁,并提出了一种名为 POISONPROMPT 的新型后门攻击方法,实验证明在不同的任务和语言模型上都具有较高的有效性、保真度和鲁棒性,该研究强调了进一步研究这一领域的重要性。
- 医疗数据增强:基于 ChatGPT 的药物识别和药物事件分类案例研究
本研究旨在探讨利用预训练的大型语言模型 (ChatGPT) 进行数据增强来识别电子病历中的关键因素,结果表明基于 ChatGPT 的数据增强对药物识别和药物事件分类任务的性能提高有益。
- 利用验证器提高预训练语言模型的规划能力
本论文通过使用 GPT-2 实验来证明,预训练的大型语言模型在计划方面的表现较差,研究人员首先建立了一个验证器在特定状态下对行动的适用性进行分类,然后在生成器中随机抽样无效动作来训练验证器,在生成器和验证器的共同作用下,取得了不错的成果。
- ACL预训练中添加指导:控制语言模型毒性的有效方式
本研究提出了两种新的预训练数据增强策略(MEDA 和 INST),可以显著降低模型的有毒内容,而不影响其实用性,进而证明我们的最佳策略(INST)可将模型毒性概率降低长达 61%,同时在五个基准 NLP 任务上保持准确性并将四个偏差检测任务