- 探究人机评估并行口语翻译的相关性
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如 - 微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型
通过比较生成型 AI 模型和经过细调的 LLMs,在文本分类任务中,利用应用特定训练数据进行细调的模型表现优异,从而验证了生成型 AI 模型在兑现其承诺方面存在问题。
- 多样训练提示(MSR)
我们引入了多次重复提示 (MSR) 攻击,这是一种新的黑盒成员推理攻击框架,用于检查大型语言模型 (LLMs) 中逐字复制的内容。我们将 MSR 提示应用于不同的文本来源,包括维基百科文章和开放教育资源 (OER) 教科书,在这些来源中,L - ChatGPTest:利用人工智能进行问卷预测试的机遇与警示
这篇论文探讨了使用生成人工智能模型进行问卷预测试的有效工具,并强调研究人员在解释和实施人工智能生成的反馈时的不可或缺的角色。
- 使用生成式预训练转换模型自动创建加密哈希函数实现的源代码变体
该研究探讨了生成预训练转换器(GPT)模型在生成包含安全风险、与参考实现不同的新型实现版本的密码哈希函数 SHA-1 方面的能力。
- 使用生成预训练转换器进行多语言自动翻译到英语的机器翻译
使用本地生成预训练转换器(GPT)模型进行零 - shot 黑盒多自然语言翻译成英文文本,评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
- 关于 GPT 模型的训练数据影响
研究了训练数据对 GPT 模型性能的影响,并提出了一种新颖的方法 GPTfluence,通过特征化模拟评估训练实例对 GPT 模型的影响,展示了对未见训练数据的鲁棒泛化能力。
- 加州圣塔克鲁兹大学在 SemEval-2024 第 5 项任务中的自然语言处理:使用少样本多选题进行法律答案验证
本文介绍了我们在 SemEval 2024 任务 5 中提出的内容:民事诉讼中的法律争议推理任务。我们提出了解决法律答案验证问题的两种方法:首先,对预训练的 BERT 模型进行了微调,并发现基于领域知识训练的模型效果更好;其次,我们对 GP - 利用指针 GPT 的生物医学文本摘要的最佳路径
通过使用指针网络替代原始 GPT 模型的注意力机制,研究发现指针 - GPT 模型在生物医学文本摘要中优于原始 GPT 模型,这对于电子病历系统来说是具有价值的重要补充,可以为临床医生提供更准确、更丰富的病历摘要信息,有可能在电子病历系统中 - 评估 LLMs 在著名人士中的性别差异
该研究评估了大型语言模型对获取事实信息的使用,特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向,并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异,尽管 GPT-4 的进展改善 - 针对 GPT 模型的对话重建攻击
近期,大型语言模型(LLMs)的领域取得了显著进展,GPT 系列模型为代表。为了优化任务执行,用户通常与云环境中的 GPT 模型进行多轮对话。本文介绍了一种特定的针对 GPT 模型的对话重建攻击,评估了其中存在的隐私风险,并引入了两种高级攻 - 全球撒谎者:LLMs 随时间和地域的真实性
研究评估 GPT 模型的事实准确性、稳定性和偏见,发现较新版本的 GPT 模型并不总是具有更好的性能,存在地域偏见及信息不对称问题,强调了在模型训练和评估中的文化多样性和地理包容性的重要性,以实现全球科技公平和公正分配人工智能的好处。
- 基于 GPT 的无语言限制多阶段提示方法的新型多项选择题生成
我们引入了一种多阶段提示方法(MSP)用于生成多项选择题(MCQs),借助于文本戴文西 - 003 和 GPT-4 等 GPT 模型的能力,这些模型在各种自然语言处理任务中表现出色。我们的方法融合了连贯思维提示的创新概念,这是一种渐进式技术 - GPT 中的跟踪和编辑关联性关系
该研究介绍了一种新的方法,用于分析和修改 GPT 模型中的实体关系,通过与 ROME 的以实体为中心的方法不同,我们开发了一种关系追踪技术来了解语言模型计算对关系判断的影响。使用 FewRel 数据集,我们识别了 MLP 模块和注意机制在处 - Rank-without-GPT: 基于开源大型语言模型构建独立的 GPT - 无关的列表排序器
通过消除对 GPT 模型的依赖,本研究首次构建了有效的零阶科学可复现性的无需 GPT 依赖的排序器,能够在通行回收实验中表现出 13% 超越基于 GPT-3.5 的排序器,并达到了基于 GPT-4 构建的排序器的 97% 有效性。研究结果还 - 大型语言模型的零样本文本分类器
利用零样本学习采用递进性思维提示,与传统的问答格式相比,GPT 模型在文本分类问题上具备零样本分类器的能力,有效地利用提示策略在各种文本分类场景中展现出较好的性能。
- GPT 模型是否能遵循人类摘要准则?评估 ChatGPT 和 GPT-4 在对话摘要中的应用
该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验,测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明 - ChatGPT 是否是地理编码的变革者 - 地理编码地址解析技术的标杆
通过对 GPT-3 模型在地址解析任务中的性能评估,研究表明双向 LSTM-CRF 模型在转换器模型和 GPT-3 模型中表现最好,转换器模型与双向 LSTM-CRF 模型相比展现出非常可比的结果。尽管 GPT-3 模型性能稍逊,但展示了在 - 时间视角下的数据污染
大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析,结果表明数据污染现象显著存在,这项研究为研究现代模型中数据污染问题的严格分析奠定了基础,并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。
- ACL基于合成数据训练生成型问答模型
通过使用一种简单且经济高效的方法来合成数据以训练问答系统,本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法,并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法,并通过实验比较了从指导调优模型获得 Q