150 万个材料叙述由聊天机器人生成
通过使用大型语言模型(LLMs)创建化学家 AI 代理程序,本研究克服了通过自动创建从自然语言文本中提取结构化数据集所面临的质量和一致性问题、可扩展性限制、以及人为错误和偏见的风险,进而简化了各种材料发现应用的机器学习数据集的编制,以及对自然语言处理工具的易用性提升。
Dec, 2023
本研究利用 LLaMA2-7B 模型,结合 13,878 件结构化材料知识数据,通过学习过程增强了 MatChat AI 模型,以预测无机材料合成路径。尽管 MatChat 还需要进一步完善以满足不同的材料设计需求,但本研究无疑突出了其出色的推理能力和在材料科学领域的创新潜力,同时以开源方式提供了 MatChat 的模型和应用框架,为将生成式人工智能与材料科学整合的协作创新奠定了坚实的基础。
Oct, 2023
本研究提出了 ChatExtract 方法,该方法利用先进的会话型 LLM(或 AI)自动提取数据,并通过一系列后续问题确保其正确性。 ChatExtract 可用于任何会话型 LLMs,结果表明,由于其简单性,可转移性和准确性,类似 ChatExtract 的方法有望在不久的将来取代其他数据提取方法。
Mar, 2023
我们基于材料学领域的 650 个具有挑战性的问题,对 GPT-3.5 和 GPT-4 模型在问答、零点提示和思维链激励下的表现进行了评估,并发现 GPT-4 的准确率最高(约为 62%),而与思维链激励相比,没有明显的准确率提高。通过错误分析,我们发现概念错误(64%)是改进语言模型表现的主要因素,而计算错误(36%)对 LLMs 性能的降低起到了次要作用。我们希望该工作中的数据集和分析能够促进材料科学领域特定 LLMs 的开发和信息提取策略的研究。
Aug, 2023
通过大型语言模型技术,我们提出了一种全面的人工智能代理框架,能够高度准确地从大量化学文献中提取信息,实现化学文献的自动化处理,从而节省人力资源并提升性能。这一方法在化学文献处理方面具有重要的实践价值,并展示了人工智能在化学数据管理和利用方面的潜力。
Feb, 2024
本文主要介绍了一种从研究论文全文中提取材料数据以建立数据库的简单方法,该方法基于自然语言处理和大型通用语言模型,无需编程或模型培训等专业知识,可实现高召回率和几乎完美精度。作者还评估了多种语言模型(GPT-3/3.5,bart 和 DeBERTaV3),并在提取体积模量数据方面取得了良好的表现。最后,作者还通过开发金属玻璃的临界冷却速率数据库展示了该方法可以扩展到其他研究领域。
Feb, 2023
AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.
Sep, 2023
AI 和生成 AI 工具在研究发现和总结方面具有重要作用,通过生成语言模型可以更快地找到相关文献并提取研究论文的关键要点,对统计学家和数据科学家具有重要意义。
Jan, 2024
本研究基于 GPT-3 模型自动生成科学论文摘要,通过机器学习模型结合多种文本表示方法来辨别机器生成文本,并分析模型性能及讨论相关研究问题,旨在揭示人工智能生成文本的能力和局限性。
Apr, 2023