- 提升教育中主动学习的生成式人工智能:基于 GPT-3.5 和 GPT-4 的个性化测试题比较研究
研究了 LLMs,特别是 GPT-3.5 和 GPT-4,如何根据主动学习原则为九年级数学提供量身定制的问题。结果显示,GPT-4 能够生成准确、具有挑战性的问题,并且 GPT-3.5 在从 GPT-4 接受指导后在处理更复杂问题方面有了明 - 使用 LLMs 生成具有不同可读性水平的教育材料
本研究介绍了分级文本生成任务,旨在将教育材料重写为特定可读性水平同时保持意义不变。通过零 - shot 和少量样本提示,我们评估了 GPT-3.5、LLaMA-2 70B 和 Mixtral 8x7B 在不同可读性水平上生成内容的能力。对 - 基于 RAG 的多源检索问答框架
基于 GPT-3.5 的多源检索框架(MSRAG)实现了检索增强生成技术(RAG)的改进,提高了问答系统的效率和准确性。
- GPT-3.5 用于语法错误修正
本文研究了在多种语言环境下,使用 GPT-3.5 进行语法错误纠正(GEC)的应用,包括零样本 GEC,针对 GEC 的微调,以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。
- 大型语言模型揭示信息操作的目标、策略和叙事框架
使用大型语言模型 GPT-3.5 来分析对抗性信息操作,协调性运动以及提取高阶指标,以提供比先前方法更完整的信息运动图像。
- 指令层次结构:训练 LLMs 优先处理特权指令
今天的 LLMs 容易受到即时注入、越狱和其他攻击的影响,使得恶意提示可以覆盖模型的初始指令。本文提出一种指令层次结构,明确定义了在不同优先级指令冲突时模型应该如何行为,并提出了一种数据生成方法来展示这种层次指令遵循行为,教导 LLMs 有 - PetKaz 参与 SemEval-2024 任务 3:利用 LLM 在对话中提取情绪 - 原因对进行情绪分类的创新
本文以 SemEval-2023 任务 3 “对话中多模态情绪因果分析竞赛” 的参赛报告为基础,着重从对话中提取情绪 - 原因二元组。具体而言,我们的方法通过结合经过微调的 GPT-3.5 实现情绪分类和基于 BiLSTM 的神经网络实现原 - 揭示 LLM 在时间数据上的不同归纳偏见
大型语言模型(LLMs)在理解并处理时间动态方面仍面临巨大挑战,本研究通过对 GPT-3.5 和 GPT-4 模型在分析时间数据时的性能评估,揭示了它们之间的差异和为特定时间关系偏向的倾向,而这种模型间的持续差异突显了 LLMs 的归纳偏见 - 数据代理:评估大型语言模型对无标注、自然语言查询的回答能力
评估了 OpenAI 的 GPT-3.5 作为一种 “语言数据科学家”(LDS) 的能力,通过评估其在多个标准上的性能,包括与诸如 NumPy、Pandas、Scikit-Learn 和 TensorFlow 等库相关的数据科学代码生成任务 - 利用大型语言模型进行基于 OntoClean 的本体修正
本研究探讨了将大型语言模型(LLMs)如 GPT-3.5 和 GPT-4 整合到本体修正过程中,特别关注 OntoClean 方法论。研究通过采用两种提示策略的 LLMs,证明了在标注过程中可以获得高准确性,并提出了开发插件软件以促进本体工 - 研究大型语言模型在文本到 SQL 翻译中的数据污染影响
通过新的方法检测数据污染以及使用新数据集 Termite,研究了 GPT-3.5 在 Text-to-SQL 任务中的性能影响,结果表明数据污染对 LLMs 在文本到 SQL 转换任务中具有显著影响。
- GPT-3.5 能否生成和编码出院小结?
GPT-3.5 在生成和编码医疗文件中的应用进行了调查,以进行数据增强和低资源标签的 ICD-10 编码。
- 大型语言模型在本科入学考试中的西班牙语性能评估
该研究评估了大型语言模型 (具体为 GPT-3.5 和 BARD) 在墨西哥国立理工学院提出的本科入学考试中的表现。这些考试涵盖了工程 / 数学和物理科学、生物和医学科学以及社会和行政科学。两个模型在不同的学术专业中表现出了一定的熟练程度, - MMChatGPT 作为新闻评论员:能否生成类似人类观点的 LLM?
研究了 GPT-3.5 在荷兰新闻文章上生成类似人类评论的能力,通过用多种提示技术进行人类相似度分析,并发现生成的 BERT 模型可以轻松区分人类写的评论和 GPT-3.5 生成的评论,且词汇多样性方面人类评论始终较高,表明生成性大语言模型 - GPT 模型对叙事实体提取的探究
在这项研究中,我们评估了两个最先进的语言模型 ——GPT-3 和 GPT-3.5(通常被称为 ChatGPT)在提取叙述实体(事件、参与者和时间表达)方面的能力,并发现它们与开箱即用的基准系统相媲美,为资源有限的从业者提供了一种全能的替代方 - 行为优化的图像生成
探索如何将最终目标的知识融入到图像生成过程中,提出了一种能够理解图像内容和用户行为的 LLM 模型 BoigLLM,使得生成的图像不仅外观更好,而且性能更佳
- CPopQA: 通过 LLMs 对文化概念的热度进行排名
该研究通过引入一种新的少样本问答任务(CPopQA),评估了大型语言模型(LLMs)对长尾文化概念(如假期)的统计排名能力,特别关注这些概念在美国和英国的受欢迎程度,并发现 GPT-3.5 在跨大洲识别地理文化接近性方面表现出卓越性能。
- 大型语言模型与查询工程在生物医学多文档摘要中的应用
使用提示工程和 GPT-3.5 进行生物医学问题聚焦多文档摘要,我们的系统在 2023BioASQ 挑战中通过 GPT-3.5 和适当的提示获得了最佳的 ROUGE-F1 结果。这篇论文证实了在其他领域观察到的事实:纳入少样本的提示通常优于 - GPT 是否具备分析表情包情感的能力?
本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力,包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明,尽管 GPT 取得了显著进展,但仍然面临内在限制,包括对上下文的理解、隐含含义的解释和数据偏 - EMNLPPsyCoT: 心理问卷作为个性检测的强大思维链
使用大型语言模型进行个性检测,通过模拟心理测验的方式,引入连续思路过程,并借助历史评分结果来得出确切的个性偏好,证明 PsyCoT 方法在提高 GPT-3.5 的性能和稳健性方面具有显著作用。