量化相似度:评估 ChatGPT 和 Google Bard 内容相对于生物医学文献的文本挖掘方法
本研究旨在通过构建数据集、分析文本语言特征和设计机器学习方法,从伦理角度研究医学应用场景下人工智能生成文本的可靠性及误差。结果显示,ChatGPT 生成的医学文本普遍存在可读性高、专业术语泛化等问题,而利用 BERT 模型检测 ChatGPT 生成的医学文本效果显著。
Apr, 2023
本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性,结果显示,这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。
Apr, 2023
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了 ChatGPT 生成的摘要与人类参考的差异,并发现 ChatGPT 在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
使用 ChatGPT 3.5 和 4 对研究论文进行分析以提高科学文献调查的有效性,选择 “人工智能在乳腺癌治疗中的应用” 作为研究主题,使用 ChatGPT 模型自动识别相关论文、对论文按范围进行组织和确定调查论文的关键信息,结果显示 GPT-4 能以 77.3% 准确率识别研究论文类别,50% 的论文的范围能被 GPT-4 正确识别,且 67% 的模型给出的原因是专家完全同意的。
Mar, 2024
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
本文旨在评估 ChatGPT 在生物医学领域中各种基准任务(如关系提取、文档分类、问答和摘要)的性能,在拥有较小训练集的生物医学数据集中,zero-shot ChatGPT 甚至优于最先进的经调优生成变换器模型(如 BioGPT 和 BioBART),这表明 ChatGPT 在生物医学领域也非常专业,具备成为缺乏大型注释数据的各种生物医学任务的有价值工具的潜力。
Jun, 2023
通过构建基于本体的知识图谱,并利用事实检查算法和网络中心性指标,我们从医学文献和 AI 生成内容中提取事实信息,分析疾病和症状之间的关联,并发现 AI 生成内容中的知识潜力,进一步探索新的知识。
Aug, 2023
AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.
Sep, 2023
ChatGPT 3.5 可以将多达 3000 个词的内容浓缩成一页,能够有针对性地从给定的文本中保留关键信息;通过对七篇科学文章使用 ChatGPT 服务生成摘要并与六位合著者进行调查,发现 ChatGPT 生成的摘要能够成功概括文章中的重要信息,保留了每篇文稿的主要信息,但与原文相比,在摘要的技术深度上稍有降低;综上,我们的研究结论强调了 ChatGPT 在文本摘要功能上作为提取关键洞察的强大工具,更符合报告性的方式而非纯粹的科学论述。
Nov, 2023