gpt-3.5 | BriefGPT - AI 论文速递

关键词gpt-3.5

搜索结果 - 48

提升教育中主动学习的生成式人工智能：基于 GPT-3.5 和 GPT-4 的个性化测试题比较研究
研究了 LLMs，特别是 GPT-3.5 和 GPT-4，如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示，GPT-4 能够生成准确、具有挑战性的问题，并且 GPT-3.5 在从 GPT-4 接受指导后在处理更复杂问题方面有了明
PDF12 days ago
使用 LLMs 生成具有不同可读性水平的教育材料
本研究介绍了分级文本生成任务，旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示，我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对
PDF14 days ago
基于 RAG 的多源检索问答框架
基于 GPT-3.5 的多源检索框架（MSRAG）实现了检索增强生成技术（RAG）的改进，提高了问答系统的效率和准确性。
PDFa month ago
GPT-3.5 用于语法错误修正
本文研究了在多种语言环境下，使用 GPT-3.5 进行语法错误纠正（GEC）的应用，包括零样本 GEC，针对 GEC 的微调，以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。
PDF2 months ago
大型语言模型揭示信息操作的目标、策略和叙事框架
使用大型语言模型 GPT-3.5 来分析对抗性信息操作，协调性运动以及提取高阶指标，以提供比先前方法更完整的信息运动图像。
PDF2 months ago
指令层次结构：训练 LLMs 优先处理特权指令
今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响，使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构，明确定义了在不同优先级指令冲突时模型应该如何行为，并提出了一种数据生成方法来展示这种层次指令遵循行为，教导 LLMs 有
PDF2 months ago
PetKaz 参与 SemEval-2024 任务 3：利用 LLM 在对话中提取情绪 - 原因对进行情绪分类的创新
本文以 SemEval-2023 任务 3 “对话中多模态情绪因果分析竞赛” 的参赛报告为基础，着重从对话中提取情绪 - 原因二元组。具体而言，我们的方法通过结合经过微调的 GPT-3.5 实现情绪分类和基于 BiLSTM 的神经网络实现原
PDF3 months ago
揭示 LLM 在时间数据上的不同归纳偏见
大型语言模型（LLMs）在理解并处理时间动态方面仍面临巨大挑战，本研究通过对 GPT-3.5 和 GPT-4 模型在分析时间数据时的性能评估，揭示了它们之间的差异和为特定时间关系偏向的倾向，而这种模型间的持续差异突显了 LLMs 的归纳偏见
PDF3 months ago
数据代理：评估大型语言模型对无标注、自然语言查询的回答能力
评估了 OpenAI 的 GPT-3.5 作为一种 “语言数据科学家”(LDS) 的能力，通过评估其在多个标准上的性能，包括与诸如 NumPy、Pandas、Scikit-Learn 和 TensorFlow 等库相关的数据科学代码生成任务
PDF3 months ago
利用大型语言模型进行基于 OntoClean 的本体修正
本研究探讨了将大型语言模型（LLMs）如 GPT-3.5 和 GPT-4 整合到本体修正过程中，特别关注 OntoClean 方法论。研究通过采用两种提示策略的 LLMs，证明了在标注过程中可以获得高准确性，并提出了开发插件软件以促进本体工
PDF3 months ago
研究大型语言模型在文本到 SQL 翻译中的数据污染影响
通过新的方法检测数据污染以及使用新数据集 Termite，研究了 GPT-3.5 在 Text-to-SQL 任务中的性能影响，结果表明数据污染对 LLMs 在文本到 SQL 转换任务中具有显著影响。
PDF5 months ago
GPT-3.5 能否生成和编码出院小结？
GPT-3.5 在生成和编码医疗文件中的应用进行了调查，以进行数据增强和低资源标签的 ICD-10 编码。
PDF5 months ago
大型语言模型在本科入学考试中的西班牙语性能评估
该研究评估了大型语言模型 (具体为 GPT-3.5 和 BARD) 在墨西哥国立理工学院提出的本科入学考试中的表现。这些考试涵盖了工程 / 数学和物理科学、生物和医学科学以及社会和行政科学。两个模型在不同的学术专业中表现出了一定的熟练程度，
PDF6 months ago
MMChatGPT 作为新闻评论员：能否生成类似人类观点的 LLM？
研究了 GPT-3.5 在荷兰新闻文章上生成类似人类评论的能力，通过用多种提示技术进行人类相似度分析，并发现生成的 BERT 模型可以轻松区分人类写的评论和 GPT-3.5 生成的评论，且词汇多样性方面人类评论始终较高，表明生成性大语言模型
PDF6 months ago
GPT 模型对叙事实体提取的探究
在这项研究中，我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5（通常被称为 ChatGPT）在提取叙述实体（事件、参与者和时间表达）方面的能力，并发现它们与开箱即用的基准系统相媲美，为资源有限的从业者提供了一种全能的替代方
PDF7 months ago
行为优化的图像生成
探索如何将最终目标的知识融入到图像生成过程中，提出了一种能够理解图像内容和用户行为的 LLM 模型 BoigLLM，使得生成的图像不仅外观更好，而且性能更佳
PDF7 months ago
CPopQA: 通过 LLMs 对文化概念的热度进行排名
该研究通过引入一种新的少样本问答任务（CPopQA），评估了大型语言模型（LLMs）对长尾文化概念（如假期）的统计排名能力，特别关注这些概念在美国和英国的受欢迎程度，并发现 GPT-3.5 在跨大洲识别地理文化接近性方面表现出卓越性能。
PDF8 months ago
大型语言模型与查询工程在生物医学多文档摘要中的应用
使用提示工程和 GPT-3.5 进行生物医学问题聚焦多文档摘要，我们的系统在 2023BioASQ 挑战中通过 GPT-3.5 和适当的提示获得了最佳的 ROUGE-F1 结果。这篇论文证实了在其他领域观察到的事实：纳入少样本的提示通常优于
PDF8 months ago
GPT 是否具备分析表情包情感的能力？
本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力，包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明，尽管 GPT 取得了显著进展，但仍然面临内在限制，包括对上下文的理解、隐含含义的解释和数据偏
PDF8 months ago
EMNLPPsyCoT: 心理问卷作为个性检测的强大思维链
使用大型语言模型进行个性检测，通过模拟心理测验的方式，引入连续思路过程，并借助历史评分结果来得出确切的个性偏好，证明 PsyCoT 方法在提高 GPT-3.5 的性能和稳健性方面具有显著作用。
PDF8 months ago