- 基于 LLM(GPT-3)的情感分析的优化技术
本论文旨在探索基于大型预训练语言模型(如 GPT-3)的情感分析优化技术,以提高模型性能和效果,并进一步促进自然语言处理(NLP)的发展。通过介绍情感分析的重要性和传统方法的局限性,介绍了 GPT-3 和微调技术,并详细解释了它们在情感分析 - 走向算法的忠诚度:合成数据与人工生成数据中的心理健康代表性跨人口统计学
使用 GPT-3 进行合成数据生成,分析不同人口统计学特征在其中的代表性应用与压力因素,为未来研究者提供对使用 LLMs 进行数据生成的启示。通过控制种族、性别和时间范围,我们开发了一个关于诱发抑郁压力因素的 3,120 个帖子的合成数据集 - 深度学习在肝细胞癌研究中提升问答系统的方法
近年来,自然语言处理的进展主要依靠深度学习技术,尤其是利用强大的计算资源如 GPU 和 TPU。通过在大量数据上训练,BERT 和 GPT-3 等模型已经彻底改变了语言理解和生成的方式。这些预训练模型为语义理解、智能写作和推理等各种任务提供 - ACL对话建模中说长道短
研究通过改变发言长度对对话模型生成回复质量的影响,发现在某些类型的对话中,可以将发言长度减少高达 72%,而不会对生成的回复质量产生明显影响。
- 重新评估内存平衡的管道并行性:BPipe
通过对 BPipe 技术在 GPT-3 和 LLaMA 模型上的性能分析以及对 BPipe 性能评估方法的引入,我们发现了 BPipe 在 GPT-3 和 LLaMA 训练上性能不同的原因,并提出了一种新的估算 BPipe 性能的方法。
- 基于 OpenAI GPT 模型的讽刺检测研究
本研究探讨了生成预训练转换器(GPT)模型(包括 GPT-3、InstructGPT、GPT-3.5 和 GPT-4)在检测自然语言中的讽刺的应用。该研究测试了不同大小和版本的精调和零 - shot 模型,并在 Self-Annotated - GPT 模型对叙事实体提取的探究
在这项研究中,我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5(通常被称为 ChatGPT)在提取叙述实体(事件、参与者和时间表达)方面的能力,并发现它们与开箱即用的基准系统相媲美,为资源有限的从业者提供了一种全能的替代方 - GPT 模型中存在对穆斯林暴力的偏见
GPT-3 存在针对穆斯林的暴力生成倾向和反穆斯林偏见,复制实验表明去偏置措施在新模型中不再有效,加强高级关联的去偏置需求。
- 语音语言模型中上下文学习的探索
在自然语言处理领域中,GPT-3 的开发以来,上下文学习(ICL)在利用大型语言模型(LLM)方面发挥了重要作用。尽管 ICL 在 NLP 领域取得了成功,但鲜有工作探索了 ICL 在语音处理中的可能性。本研究提出了第一个探索 ICL 与语 - mBBC: 探索多语迷宫
多语言语言模型的综合评估:mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估,发现资源可用性对模型性能有重要影响,并且资源可用性、语言家族和脚本类型之间存在复杂关系,为模型选择和部署提供了见解。
- 逆转诅咒:基于 “A 是 B” 训练的 LLMs 无法学习到 “B 是 A
该研究揭示了自回归大型语言模型(LLM)中的泛化失败现象,即逆转诅咒,导致逻辑推断的基本失败。通过证据和评估表明 Reversal Curse 在不同模型大小和家族中都是普遍存在的。
- GPT-3 对抗癌药物敏感性预测的评估
利用结构化药理基因组学数据,在五种组织类型上研究了 GPT-3 在抗癌药物敏感性预测任务中的潜力,并通过零样本提示和微调范例评估了其性能。通过药物的 smile 表示和细胞系的基因组突变特征可以预测药物反应。这项研究的结果有潜力为精准肿瘤学 - 大型语言模型中的认知效应
通过对 GPT-3 模型的测试,我们发现大型语言模型(LLMs)可能会出现几种人类认知效应,包括提前启动效应、距离效应、SNARC 效应和尺寸一致性效应,但缺乏锚定效应。我们描述了我们的方法学,并讨论了 GPT-3 出现这些效应的可能原因以 - 评估优秀的语法错误修正
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性 - ACL使用大型语言模型的否定互补常识
本文研究了 GPT-3 等较大型语言模型在否定对比问题上的表现。我们提出了一种方法来改善模型在否定对比场景下的表现,该方法胜过了来自 GPT-3 的少样本生成,突出了研究大型语言模型在否定对比问题中响应的重要性。
- 蒙蔽:基于文本游戏中的欺骗与合作
当前的语言模型是否具有欺骗和识别谎言的能力?我们通过引入一个名为 “Hoodwinked” 的基于文本的游戏,并与 GPT-3、GPT-3.5 和 GPT-4 控制的代理进行实验,发现这些模型具有欺骗和识别谎言的能力,并且较为先进的模型在击 - ICML从行动和指令推断沟通代理的目标
研究了协作团队之间的自然语言指令传递在多模态贝叶斯逆向规划中的应用,发现使用语言指令可以更快、更准确地推断出团队目标,强调了语言沟通对于协作任务的重要性。
- 幽默生成的逐步思考指导
该论文探讨了使用 GPT-3 模型进行幽默生成,包括建模人类喜剧写作理论和利用分步思维指导。此外,还探讨了认知距离在创造幽默方面的作用。
- 评估 GPT-3 在检测虚假政治陈述中的有效性:基于 LIAR 数据集的案例研究
本研究利用 GPT-3 模型对 LIAR 数据集进行实验,证明该模型在检测政治虚假陈述方面的效果超越了基于其他方法的现有模型,并在设计提示的情况下尝试零样本学习,取得了接近现有模型的性能。
- ACLFLamE: 自然语言说明下的小样本学习
提出了一种基于 GPT-3 生成自然语言解释并使用 RoBERTa 进行微调的两阶段 Few-shot 学习框架 FLamE,可以显著提高自然语言推理的准确性,但生成的解释并不能很好地说明分类决策,并指出标签特定的提示在生成的解释中起着重要