Mar, 2024

教师 - 学生大型语言模型使用多约束分子生成指导

TL;DR提出了一种多约束分子生成大型语言模型(TSMMG),通过提取多个 “教师” 模型和工具的分子知识构建大量的文本 - 分子对,实现了生成符合各种文本提示描述的新型分子。TSMMG 在生成满足复杂的自然语言描述的化学属性要求的分子方面表现出色,平均分子有效性超过 99%,成功比率分别为 88.08%,65.27%和 61.44%。该模型还具有零 - shot 测试的适应性,可以生成满足尚未遇到的属性组合的分子,并且可以处理具有不同语言风格的文本输入。TSMMG 的知识蒸馏功能对小模型的持续增强起到了积极的作用,并且创新的数据集构建方法有效解决了数据稀缺和质量问题,使其成为药物发现和材料科学领域的有 promising 工具。