基于 OpenAI 大型语言模型的自动阅读段落生成

Apr, 2023

基于 OpenAI 大型语言模型的自动阅读段落生成

Automated Reading Passage Generation with OpenAI's Large Language Model

Ummugul Bezirhan, Matthias von Davier

TL;DR本文提出一种使用 OpenAI 最新的基于 Transformer 的语言模型 GPT-3 生成阅读文章的方法，并通过人工编辑和人工评估保证生成的文章的准确性和易读性。

Abstract

The widespread usage of computer-based assessments and individualized learning platforms has resulted in an increased demand for the rapid production of high-quality items. automated item generation (AIG), the process of using item models to generate new items with the help of computer

automated item generation machine learning algorithms gpt-3 reading passages human evaluation

发现论文，激发创造

基于 Transformer 的大型语言模型的 AI 内容自检测

本文介绍了直接来源检测的概念，并评估了生成型 AI 系统是否能够识别其输出并将其与人工编写的文本加以区分。结果表明，Google 的 Bard 模型表现出最大的自检测能力，准确率达到 94％，其次是 OpenAI 的 ChatGPT，准确率为 83％。而 Anthropic 的 Claude 模型似乎无法自检测。

Dec, 2023

AI 生成内容的偏见：对大型语言模型所产生新闻的研究

调查了七种代表性大型语言模型生成的 AI 生成内容的性别和种族偏见，研究发现每个语言模型生成的内容存在明显的性别和种族偏见，其中 ChatGPT 生成的内容偏见最低且能够拒绝产生带有偏见的内容。

Sep, 2023

IGA: 意图引导的作者助手

基于预训练语言模型的交互式写作助手 IGA，可以通过标记进行 fine-grained 的文本生成和改写，在自动和人工评估以及小规模用户研究中表现良好，同时公开了数据集、代码和演示。

Apr, 2021

大型语言模型自动生成与评估阅读理解测试题

使用大型语言模型生成和评估阅读理解测试题目是一个有前途的方法，特别适用于没有足够可用数据的语言。

Apr, 2024

人工智能生成内容的综合调查（AIGC）：从 GAN 到 ChatGPT 的生成式人工智能历史

该研究综述了生成模型的历史和基本组成部分，并从单模态和多模态交互的角度介绍了文本和图像生成任务及相关模型，讨论了人工智能生成内容领域中的开放性问题和未来挑战。

Mar, 2023

聊天 GPT 的调查: AI 生成的内容、挑战和解决方案

本文针对 AI 基模型带来的 AI 生成内容（AIGC）涉及的工作原理、安全和隐私威胁、最新解决方案、以及未来挑战等方面做出了深入调查，主要讨论了 AIGC 的架构、工作模式和关键特征、安全和隐私威胁、道德和社会影响，最后针对 AIGC 未来的挑战和研究方向进行了总结。

May, 2023

评估 AI 检测器在识别 AI 生成代码中的应用：对教育的影响

研究聚焦于大型语言模型在编程教育中的应用，特别关注人工智能生成内容检测器在学术不端中的潜在漏洞，并通过生成代码来检验大型语言模型对于绕过检测的努力。研究结果表明现有的人工智能生成内容检测器在区别人工编写的代码和人工智能生成的代码方面表现不佳。

Jan, 2024

AI 生成文本检测工具的实证研究

本研究旨在创建一个多领域数据集，以测试用于检测高校和其他研究机构使用的人工生成信息的最先进 API 和工具。六种不同的人工智能文本识别系统，包括 “GPTkit”，“GPTZero”，“Originality”，“Sapling”，“Writer” 和 “Zylalab”，准确率介于 55.29% 至 97.0% 之间。尽管所有工具在评估中表现良好，但原创性在各方面表现尤为出色。

Sep, 2023

检测虚假生成的科学摘要

本研究基于 GPT-3 模型自动生成科学论文摘要，通过机器学习模型结合多种文本表示方法来辨别机器生成文本，并分析模型性能及讨论相关研究问题，旨在揭示人工智能生成文本的能力和局限性。

Apr, 2023

GPT-4 大型预训练语言模型在自动化短答案评分中的表现

自动短答案评分（ASAG）是一个活跃的机器学习研究领域已有十多年的时间。它承诺即使在人工评分师有限的情况下，让教育者对大班课中的自由回答进行评分和反馈。近年来，经过精心训练的模型已经取得了越来越高的性能水平。最近，预训练的大型语言模型（LLMs）作为一种通用工具出现了，并且引发了一个有趣的问题，即没有额外训练的通用工具与专门模型相比如何。我们研究了 GPT-4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，除了评分学生答案与参考答案的对齐标准任务外，还研究了不透露参考答案的情况。我们发现，总体而言，预训练的通用 GPT-4 LLM 的性能与手工设计的模型相当，但比经过专门训练的 LLMs 差。

Sep, 2023