- ChatGPT为帮助而来,而非取代任何人——对将ChatGPT整合到计算机科学课程中的学生观点评估
大型语言模型(LLM),如GPT和Bard,能够根据文本描述生成代码,具有显著的效果。该研究调查了52名大一计算机科学专业学生对具备代码生成功能的技术的看法,结果显示学生们普遍支持GPT在学术使用中的重要性,并强调了对GPT的具体培训的需求 - UMass-BioNLP在MEDIQA-M3G 2024中的DermPrompt:基于GPT-4V的皮肤诊断系统的系统化探索
通过整合大型多模型,特别是利用 GPT-4V 在检索者和重新排序框架下的能力,本研究提出了一种诊断临床皮肤病例的新方法,实验证明使用 GPT-4V 作为检索代理在检索皮肤病情时能够准确地检索到正确的皮肤状况,同时通过多智能体对话框架进行诊断 - 游戏中的GPT:范围综述(2020-2023)
本论文通过55篇文章的综述,探讨了GPT在游戏中的潜力,为研究人员提供了对当前应用的全面理解,并确定了新兴趋势和未开发领域。我们确定了GPT在当前游戏研究中的五个关键应用:程序生成内容、混合式主动设计、混合式游戏玩法、游戏游玩和游戏用户研究 - 如何提高?使用GPT凸显开放式回答中的期望和不期望的部分
本研究使用生成式预训练转换器(GPT)中的序列标注方法,利用GPT模型在辅导训练数据集中识别所需和不需要的赞扬组成部分以提供解释性反馈,研究表明GPT模型在识别特定元素方面具有潜力,能够提供对开放式回答中的期望和改进点的反馈。
- 如何做到对?使用GPT重述错误学员回答
通过使用 GPT-4 模型,我们的研究建立一个解释性反馈系统,用于训练初级导师。研究结果表明,该模型有效地识别出三个训练课程中正确/错误的学员反馈,并将错误反馈转化为期望的反馈,其性能达到与人类专家相当的水平。
- GPT-4通过297个波兰书面理事会认证考试
通过在297个考试中测试Generative Pretrained Transformer(GPT)模型的性能,研究结果显示GPT-3.5没有通过任何考试,而最新的模型gpt-4-0125成功通过了222个考试(75%)。此研究对于波兰的大 - 利用GPT增强文本摘要:最小化幻觉的策略
使用DistilBERT模型生成抽取式摘要,使用T5模型生成抽象式摘要,通过结合DistilBERT和T5模型生成混合摘要。我们的研究的核心是实施基于GPT的精炼过程,以最小化人工智能生成的摘要中常见的错觉问题。通过评估未精炼的摘要和精炼后 - 评估由OpenAI的GPT生成的大型语言模型的文本摘要
本研究通过使用传统的 ROUGE 和潜在语义分析(LSA)等指标,将 OpenAI 的 GPT 模型作为独立的评估者,评估了 Hugging Face 的六个基于 Transformer 的模型生成的文本摘要的效果。独特地,我们将 GPT - GPT能力驱动的网络安全培训:有效意识的个性化方法
本研究探讨了传统网络安全意识培训计划的局限性,并提出了一种创新解决方案,使用生成型预训练转换器 (GPT) 来解决这些问题。该研究将 GPT 模型与自然语言处理能力相结合,根据个体培训者的个人资料个性化定制培训模块,从而提供高度个性化和动态 - ChatGPTest:利用人工智能进行问卷预测试的机遇与警示
这篇论文探讨了使用生成人工智能模型进行问卷预测试的有效工具,并强调研究人员在解释和实施人工智能生成的反馈时的不可或缺的角色。
- 评估基于任务的多语言语言模型对图表的有效性
我们研究了GPT-4V在图表的低级数据分析任务中的有效性,并通过实验结果发现其潜力和局限性,同时提出了一种名为“Chain-of-Charts”的新颖文本提示策略,能够提高模型性能并揭示人类分析需求与GPT-4V能力之间的差距。
- GPT-3.5 用于语法错误修正
本文研究了在多种语言环境下,使用GPT-3.5进行语法错误纠正(GEC)的应用,包括零样本GEC,针对GEC的微调,以及使用GPT-3.5对其他GEC模型生成的纠正假设进行重新排序。
- 比较GPT-4与Chat-GPT在心理健康护理中的功效:对大型语言模型进行盲评估以支持心理辅导
该研究比较了两个大型语言模型GPT-4和Chat-GPT在回应18个心理提示方面的表现,以评估它们在心理健康护理环境中的潜在适用性。结果显示GPT-4在生成临床相关和富有同理心的回应方面更有效,提供更好的支持和指导。这项研究为大型语言模型在 - GPT商店挖掘与分析
这篇论文通过深入测量研究GPT Store,重点关注GPT的分类、影响GPT流行度的因素以及潜在的安全风险,旨在提供GPT Store的当前状态的详细概述,揭示其运营动态和用户互动模式,为未来生成AI的研究、发展和政策制定提供宝贵的洞见。
- 跨语言评估ChatGPT的数学能力
本文评估了ChatGPT在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了ChatGPT在多种自然语言中解决数学问题的能力,并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性,并提供了当前的限制。
- 关于GPT-4在文档理解中的适用性注解
我们对所有公开可用的GPT-4系列模型在文档理解领域进行了遗漏和可重复评估,发现通过提供外部OCR引擎识别的文本和文档图像作为输入,GPT-4 Vision Turbo模型在处理文本语义以外的文本空间排列和视觉线索方面表现良好。评估后的分析 - GPT能否重新定义医学认识?对生物医学机器阅读理解中的GPT进行评估
我们评估了GPT在四个封闭式生物医学机器阅读理解基准测试上的表现,提出了一种名为Implicit Retrieval Augmented Generation(IRAG)的提示策略,该策略通过减少传统RAG设置中使用向量数据库检索重要部分的 - MaTableGPT: 材料科学文献中基于GPT的表格数据提取器
利用MaTableGPT从材料科学文献中高效提取表格数据,成功实现了96.8%的提取准确率,并展示了几乎无错误的学习方法的成本分析和 Pareto 前沿映射,为水分解催化领域的研究提供了宝贵的洞察。
- 揭示GPT-4o的安全性:使用越狱攻击进行的实证研究
该论文首次对GPT-4o进行了严格的安全评估,发现GPT-4o在文本模式破解方面具有增强的安全性,同时引入的音频模式为对GPT-4o的破解攻击开辟了新的攻击向量,并且现有的黑盒多模态破解攻击方法在GPT-4o和GPT-4V上效果不佳,这些发 - 用于组讨论中自动里程碑检测的大型语言模型
调查了LLM在小组口头交流任务中的表现,提出了使用文字片段迭代提示GPT来处理转录内容以检测是否完成了里程碑。研究发现,相比于使用文本嵌入的语义相似度搜索方法,迭代提示GPT的表现更好,并进一步讨论了在不同上下文窗口大小下GPT响应的质量和