文本和音频简化:人类与 ChatGPT
本研究旨在通过构建数据集、分析文本语言特征和设计机器学习方法,从伦理角度研究医学应用场景下人工智能生成文本的可靠性及误差。结果显示,ChatGPT 生成的医学文本普遍存在可读性高、专业术语泛化等问题,而利用 BERT 模型检测 ChatGPT 生成的医学文本效果显著。
Apr, 2023
本文通过收集并比对来自不同领域的问题,得出了 Human ChatGPT Comparison Corpus (HC3) 数据集,并评估了与人类专家相比 ChatGPT 的回答特点和差异,还提出了未来 LLMs 的研究方向,最终建立了三个不同的检测系统以检测 ChatGPT 的生成文本。
Jan, 2023
本文研究 ChatGPT 在不同目标受众和写作风格下的表现,发现相比人类撰写的文章,ChatGPT 生成的样本在词汇类型分布等方面存在差异,并可能出现事实错误或幻觉。
Jun, 2023
本研究调查了人类和 ChatGPT 的文本简化及其与依赖距离之间的关系。我们通过一名人类专家和使用 ChatGPT 对 220 个句子进行了简化,这些句子在前期用户研究中被测定为语法难度递增。我们发现这三组句子的平均依赖距离存在差异:原始句子组的依赖距离最高,其次是 ChatGPT 简化句子,而人类简化句子的依赖距离最低。
May, 2024
研究使用 ChatGPT 将市民导向的行政文本翻译成了德语简化易语言,使用语言和整体两种策略进行翻译,并对生成的文本进行质量分析,发现生成的文本比标准文本更易于理解,但仍未完全符合规定的简化易语言标准,而且内容有时不正确。
Aug, 2023
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
对语言模型所训练的某些人群的特定语言信号的存在进行研究,发现这可能导致歧视。本文探讨一种减少偏见的可能技术,即简化文本,实验结果表明,对于简化的数据,预测敏感属性的分类器准确性下降了最多 17%。
May, 2023
本研究提出了一种基于机器学习的解决方案,可以识别 ChatGPT 生成的文本,并在分类过程中比较分析了共 11 种机器学习和深度学习算法。在 Kaggle 数据集上测试,该算法在由 GPT-3.5 生成的语料库上表现出 77% 的准确率。
May, 2023
研究探讨人类和 LLM 生成的对话之间的语言差异,并使用 ChatGPT-3.5 生成的 19.5K 对话作为 EmpathicDialogues 数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在 118 个语言类别上比较 ChatGPT 生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但 ChatGPT 在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了 LLM “更接近人类” 的最新发现。然而,在正面或负面情感方面,ChatGPT 和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的 ChatGPT 生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的 AI 研究。我们的研究结果增加了对 ChatGPT 的语言能力的理解,并为区分人类和 LLM 生成的文本的持续努力提供了信息,这对于检测由 AI 生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
本文研究了机器学习模型在准确区分 ChatGPT 生成文本与人类生成文本时是否能够有效训练,使用可解释的人工智能框架来对模型进行了解释,研究发现采用 ChatGPT 重新短语生成能够使模型识别 ChatGPT 生成文本与人类生成文本之间的差异更具挑战性。
Jan, 2023