- 利用医学教材增强黑盒语言模型进行临床问题回答
医学文本书籍作为检索语料库在医疗领域比维基百科更具价值,该研究提出了将医学文本书籍用于增强大规模语言模型(LLMs),并通过插拔式模块集成了医学专业领域的专业知识,以提高 LLMs 在医学相关任务中的专业性和准确性。实验结果显示,使用 LL - FPTQ:大型语言模型的细粒度后训练量化
本研究提出了一种新的基于 W4A8 的后训练量化方法,结合了现有的两种技术的优势,实现了 4 位权重量化和 8 位矩阵计算加速,在多个标准基准测试中获得最新的 W4A8 量化性能,为大型语言模型的实际应用提供了可能。
- 语言 Transformer 中的解码器层显著性解读
我们介绍了一种在应用于分类任务的大规模语言模型中识别文本显著性的策略。我们采用了渐变基础的显著性方法,并提出了一种评估每一层语义一致性程度的方法,在多个基准分类数据集上展示了相对于其他方法的一致性改进。我们的方法不需要额外的训练或标记数据, - 检测 ChatGPT 生成文本的波兰比例:ChatGPT 是否涉猎到文本?
通过引入 HPPT 数据集和 “Polish Ratio” 方法,本研究提出了更强健的检测器,可以区分纯 ChatGPT 生成的文本和 ChatGPT 优化的人工写作文本,并且通过量化 ChatGPT 的参与度,提供了更全面的解释性。
- 扩展 ChatGPT 的前沿:代码生成和调试
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的 - ChatGPT 公平性与可解释 - 引导提示的作用
大规模语言模型在信用风险评估中的潜力研究表明,当遵循精心设计的提示并辅以领域特定知识时,这些语言模型可以与传统机器学习模型的性能相媲美。尤其值得注意的是,它们只使用了极少的数据 - 仅 20 个数据点,相比于机器学习模型的 800 个数据点 - 使用大型语言模型进行文本分类的无监督校准与先验适应
本文提出了一种适用于文本分类任务的策略,无需标签样本,只需少量样本查询,并将先验类分布适应于任务,通过对模型后验概率进行校准,结果表明这些方法在提示中的不同训练次数下优于未适应模型。
- 评估大型语言模型在中文语法错误修正任务中的能力
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法 - 基于大规模语言模型的长篇数据重打分
研究表明,在使用大规模语言模型的情况下,对于长篇 ASR 测试集,可以使 Word Error Eate 和 Salient Term Error Rate 分别减少 8% 和 30%。
- ACLChatGPT 与人类撰写文本:可控文本摘要与句子风格转移的洞见
本文研究 ChatGPT 在不同目标受众和写作风格下的表现,发现相比人类撰写的文章,ChatGPT 生成的样本在词汇类型分布等方面存在差异,并可能出现事实错误或幻觉。
- MetaVL:从语言模型向视觉语言模型转移上下文学习能力
本文研究如何使图像 - 语言领域的大规模预训练模型具备上下文学习的能力,通过将自然语言处理领域的元学习应用于视觉 - 语言领域,并使用视觉编码器实现跨域转移学习,实验证明可以显著提高视觉问答任务的上下文学习能力,甚至可以补偿模型的大小并取得 - UFO: 通用常识问答的统一事实获取
通过 Unified Facts Obtaining (UFO) 方法使用大规模语言模型,获取事实并在各种常识问答方面进行推理,从而在各基准测试中显着提高推理模型的性能。
- 利用基于提示的数据增强提高黑盒少样本文本分类
本文提出了一种名为 BT-Classifier 的方法,它通过对数据进行数据增强、把黑盒模型作为特征提取器以及使用小型的辅助语言模型的 prompt-based 微调训练分类器,达到了在不访问大型模型的梯度的情况下优化零样本学习任务的效果, - 自问自答:无监督知识引导的语言模型对齐
本文介绍了一种称为 Self-QA 的创新框架,利用大量无监督知识代替传统的人工撰写指导文件种子,从而生成更多正确和特定于领域的指导数据,以克服创建用于指导调整的监督配对问答数据所面临的挑战。
- 具备自控制内存系统的大规模语言模型释放无限长度输入容量
本文提出了 Self-Controlled Memory 系统,包括语言模型代理、记忆流和记忆控制器三个核心模块,可以扩展 Large-scale Language Models 的输入容量,使其能够处理超长文本,而且实验结果表明该系统能够 - GPT-NER:基于大型语言模型的命名实体识别
本文介绍了一种基于 GPT 模型的 NER 算法 ——GPT-NER,它通过将序列标注任务转化为生成任务来弥补 LLMs 在 NER 任务上的缺陷,并提出自我验证策略以解决 LLMs 易出现的幻觉问题。实验结果表明,该算法表现与有监督算法相 - RPTQ: 基于重排序的后训练量化方法用于大型语言模型
本文提出了一种新的基于重新排序的量化方法 RPTQ,用于解决大规模语言模型序列的激活范围之间的不同,从而将其缩小到 3 位激活,减少存储和计算的开销。
- 基于词汇的零训练后门攻击语言模型
本文提出了一种无需额外训练的语言模型后门攻击方法 TFLexAttack,通过操作 language model 的嵌入字典,向 tokenizer 注入词汇触发器,实现攻击的隐秘性,实验结果表明该攻击方法的普遍性和有效性。
- PointCLIP V2: 适应强大 3D 开放世界学习的 CLIP
本文介绍了一种名为 PointCLIP V2 的 3D 开放世界学习器,它使用对比语言 - 图像预训练(CLIP)以及大规模语言模型来在 3D 点云数据上进行零 - shot 分类、部分分割和物体检测。PointCLIP V2 通过引入现实 - ACL评估自然语言处理模型对可行性的理解能力:“约翰 50 岁,他的儿子可以是 65 岁吗?
本文介绍了一个问题回答数据集 FeasibilityQA,并通过该数据集测试了 GPT-3,GPT-2 和 T5 等最先进的模型回答可能性问题的能力。研究表明,即使提供相关的知识陈述,这些最先进的模型对可能性问题的正确回答率仍然很低,这使人