gpt models | BriefGPT - AI 论文速递

关键词gpt models

搜索结果 - 40

在错置和倒置图灵测试中，GPT-4 被认为比人类更具人类特征
在日常的 AI 检测中，需要在非正式的在线对话中区分人与 AI。通过反转和位移的图灵测试，我们测量了人类和大规模语言模型在区分人类和 AI 方面的能力，并发现与互动质询者相比，AI 和位移人类评审员的准确性较低。此外，这三个评审体都更常将表
PDF16 days ago
GPT 与 RETRO: 探索检索与参数高效微调的交集
应用 PEFT 方法对 RETRO 和 GPT 模型进行了比较分析，表明 RETRO 模型在零 - shot 设置中优于 GPT 模型，但 GPT 模型在 PEFT 方面具有更高的性能潜力。
PDF22 days ago
探究人机评估并行口语翻译的相关性
评估口译服务的表现是一项复杂的任务，尤其是在应用自动评估方法时，本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性，结果表明 GPT 模型，特别是 GPT-3.5 具有最强的语义相似性相关性，即使在评估短文本片段时也是如
PDFa month ago
微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型
通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。
PDFa month ago
GPT-4 的道德一维映射：国家估计的准确性与道德领域的依赖关系
该研究重要性强调理解 GPT-4 的道德理解不仅需要考虑国家特征，还需要考虑具体的道德问题特征。
PDF2 months ago
多样训练提示（MSR）
我们引入了多次重复提示 (MSR) 攻击，这是一种新的黑盒成员推理攻击框架，用于检查大型语言模型 (LLMs) 中逐字复制的内容。我们将 MSR 提示应用于不同的文本来源，包括维基百科文章和开放教育资源 (OER) 教科书，在这些来源中，L
PDF2 months ago
ChatGPTest：利用人工智能进行问卷预测试的机遇与警示
这篇论文探讨了使用生成人工智能模型进行问卷预测试的有效工具，并强调研究人员在解释和实施人工智能生成的反馈时的不可或缺的角色。
PDF3 months ago
使用生成式预训练转换模型自动创建加密哈希函数实现的源代码变体
该研究探讨了生成预训练转换器（GPT）模型在生成包含安全风险、与参考实现不同的新型实现版本的密码哈希函数 SHA-1 方面的能力。
PDF3 months ago
使用生成预训练转换器进行多语言自动翻译到英语的机器翻译
使用本地生成预训练转换器（GPT）模型进行零 - shot 黑盒多自然语言翻译成英文文本，评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
PDF3 months ago
关于 GPT 模型的训练数据影响
研究了训练数据对 GPT 模型性能的影响，并提出了一种新颖的方法 GPTfluence，通过特征化模拟评估训练实例对 GPT 模型的影响，展示了对未见训练数据的鲁棒泛化能力。
PDF4 months ago
加州圣塔克鲁兹大学在 SemEval-2024 第 5 项任务中的自然语言处理：使用少样本多选题进行法律答案验证
本文介绍了我们在 SemEval 2024 任务 5 中提出的内容：民事诉讼中的法律争议推理任务。我们提出了解决法律答案验证问题的两种方法：首先，对预训练的 BERT 模型进行了微调，并发现基于领域知识训练的模型效果更好；其次，我们对 GP
PDF4 months ago
利用指针 GPT 的生物医学文本摘要的最佳路径
通过使用指针网络替代原始 GPT 模型的注意力机制，研究发现指针 - GPT 模型在生物医学文本摘要中优于原始 GPT 模型，这对于电子病历系统来说是具有价值的重要补充，可以为临床医生提供更准确、更丰富的病历摘要信息，有可能在电子病历系统中
PDF4 months ago
评估 LLMs 在著名人士中的性别差异
该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善
PDF4 months ago
针对 GPT 模型的对话重建攻击
近期，大型语言模型（LLMs）的领域取得了显著进展，GPT 系列模型为代表。为了优化任务执行，用户通常与云环境中的 GPT 模型进行多轮对话。本文介绍了一种特定的针对 GPT 模型的对话重建攻击，评估了其中存在的隐私风险，并引入了两种高级攻
PDF6 months ago
全球撒谎者：LLMs 随时间和地域的真实性
研究评估 GPT 模型的事实准确性、稳定性和偏见，发现较新版本的 GPT 模型并不总是具有更好的性能，存在地域偏见及信息不对称问题，强调了在模型训练和评估中的文化多样性和地理包容性的重要性，以实现全球科技公平和公正分配人工智能的好处。
PDF6 months ago
基于 GPT 的无语言限制多阶段提示方法的新型多项选择题生成
我们引入了一种多阶段提示方法（MSP）用于生成多项选择题（MCQs），借助于文本戴文西 - 003 和 GPT-4 等 GPT 模型的能力，这些模型在各种自然语言处理任务中表现出色。我们的方法融合了连贯思维提示的创新概念，这是一种渐进式技术
PDF6 months ago
GPT 中的跟踪和编辑关联性关系
该研究介绍了一种新的方法，用于分析和修改 GPT 模型中的实体关系，通过与 ROME 的以实体为中心的方法不同，我们开发了一种关系追踪技术来了解语言模型计算对关系判断的影响。使用 FewRel 数据集，我们识别了 MLP 模块和注意机制在处
PDF7 months ago
Rank-without-GPT: 基于开源大型语言模型构建独立的 GPT - 无关的列表排序器
通过消除对 GPT 模型的依赖，本研究首次构建了有效的零阶科学可复现性的无需 GPT 依赖的排序器，能够在通行回收实验中表现出 13% 超越基于 GPT-3.5 的排序器，并达到了基于 GPT-4 构建的排序器的 97% 有效性。研究结果还
PDF8 months ago
大型语言模型的零样本文本分类器
利用零样本学习采用递进性思维提示，与传统的问答格式相比，GPT 模型在文本分类问题上具备零样本分类器的能力，有效地利用提示策略在各种文本分类场景中展现出较好的性能。
PDF8 months ago
GPT 模型是否能遵循人类摘要准则？评估 ChatGPT 和 GPT-4 在对话摘要中的应用
该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验，测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明
PDF9 months ago