- 利用大型语言模型高效分类编程课程中学生求助请求
通过研究,我们发现 GPT-3.5 和 GPT-4 模型可以准确分类学生的求助请求,并提高教育系统的自动化分类能力。
- 大型语言模型用于方面级情感分析
使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了 GPT-4 和 GPT-3.5 的性能,结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 的联合方面术语提取和极性分类任务上获得了 83.8 的最优 F1 分数, - HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度
研究表明,使用大型语言模型(LLMs)在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异,进而减少其仇恨程度而不改变原始文本的语义意义。
- ChatGPT 自动评分的微调
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高 - 大型语言模型能够推断社交媒体用户的心理特质
利用大型语言模型(LLMs)如 ChatGPT 从用户的数字足迹中推断个体的心理特征,研究发现 GPT-3.5 和 GPT-4 可以在零样本学习情景下从用户的 Facebook 状态更新中推导出五大人格特征,但结果显示推断得分与自我报告的特 - 黑盒分析:法律文本蕴含任务中的 GPTs 跨时限研究
对 COLIEE 任务 4 数据集中 Heisei 18(2006 年)到 Reiwa 3(2021 年)的日本法律文本具体判断能力的 GPT-3.5(ChatGPT)和 GPT-4 模型的分析揭示了模型在处理法律文本具体性任务方面的优点、 - ChatGPT 在情感计算任务上的广泛评估
基于 ChatGPT 模型的广泛研究评估了 GPT-4 和 GPT-3.5 在 13 个影响计算问题上的性能,发现它们在涉及情感、情绪和毒性等问题上表现出色,但在涉及隐性信号的问题上表现较差,如参与度测量和主观性检测。
- ChatGPT 的行为如何随时间变化?
GPT-3.5 和 GPT-4 是广泛使用的两个大型语言模型(LLM)服务,本研究通过评估二者在数学问题解决、回答敏感 / 危险问题、生成代码和视觉推理方面的表现,发现它们的性能和行为会随时间变化而大幅波动,强调了对 LLM 质量的持续监控 - 针对法律摘要的论证段落增强
本文利用命题分析和法律 argumentative scheme 结合创建法律 argumentative segments,采用 GPT-3.5 生成 argumentative segments 的 summary,评估表明我们的方法更 - 使用 ChatGPT 模型评估阿拉伯语 NLP 任务
本研究评估了 GPT-3.5 和 GPT-4 模型在七个阿拉伯语自然语言处理任务上的性能,并发现 GPT-4 在其中五个任务上的性能优于 GPT-3.5,同时提供了一种新的 Python 接口用于轻松评估这些任务。
- ICML对 GPT-3.5 和 GPT-4 在巴西葡萄牙语语法纠错方面的评估
研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能,并将其与 Microsoft Word 和 Google Docs 进行比较。
- LLM 辅助内容分析:使用大型语言模型支持演绎编码
本研究探讨了利用大型语言模型的方法来减少演绎编码所需的时间,同时保留传统内容分析的灵活性。研究发现,在某些情况下,使用 GPT-3.5 可以达到与人类编码者同等程度的一致性水平。
- 用大型语言模型解决和生成 NPR Sunday Puzzles
使用大型语言模型和 PUZZLEQA 数据集探索解决和生成 NPR Sunday Puzzle 游戏节目谜题的能力,并发现大型语言模型可以解决 PUZZLEQA 谜题,但在生成谜题方面表现不佳,需要未来的研究。
- 揭秘 GPT 自我修复代码生成
本文分析了 GPT-3.5 和 GPT-4 在 APPs 数据集上自我修复的能力,发现只在 GPT-4 上看到了自我修复的有效性,并且发现自我修复被反馈阶段所限制。
- ExpertPrompting:指导大规模语言模型成为卓越专家
本文介绍了一种使用 ExpertPrompting 技术的方法,通过 In-Context Learning 实现了定制化的指令,并将其用于训练基于 GPT-3.5 的 ExpertLLaMA 模型,实现了与 ChatGPT 相近的对话效果 - 关于文体改写需要上下文模型和评估的重要性
本文着重于文本的形式、毒性和情感转移任务,并提出了将上下文信息应用于文本改写的方法,比较了有上下文和无上下文改写的效果,并通过新型语言模型 GPT-3.5 和 GPT NeoX 进行实验比较,结果表明,上下文改写会更符合人类的阅读习惯,但并 - GPT-3.5 与 GPT-4:在零样本学习中评估 ChatGPT 的推理性能
本文对 GPT-3.5 和 GPT-4 进行全面技术评估,发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5,并提出一组改良数据来提高两种模型的零样本学习能力。
- M3KE: 一种用于中文大型语言模型的庞大多级多主题知识评估基准
这篇论文介绍了 M3KE 评估标准,它是一个用于测试中文大型语言模型在各种学科和教育级别下零样本和少样本的多任务准确性的基准。通过在该基准上对比,研究人员发现 GPT-3.5 在 M3KE 上达到了约 48% 的准确率,比其他中文语言模型表 - GPT-3.5 和 Bard 人工智能模型在 Java 函数代码生成能力方面的初步分析
本研究评估了两种先进的人工智能模型 GPT-3.5 和 Bard 在给定函数描述时生成 Java 代码的能力,并发现 GPT-3.5 在正确生成代码方面的表现优于 Bard 约 37.5%。该研究强调了人工智能在软件开发中自动化和支持方面的 - 草的点滴:GPT 是否已经能够像惠特曼一样写作?
本研究通过自动评估,考察了 GPT-3.5,GPT-3.5-turbo (ChatGPT) 和 GPT-4 模型在未经过 fine-tuning 情况下,使用 zero-shot 和 many-shot prompts 样本生成指定作者风格