Taiyi: 一个用于多样化生物医学任务的双语精调大型语言模型
通过扩展 CLIP 和 Stable-Diffusion-XL 的能力,我们开发了一种新的中英双语文本到图像模型 Taiyi-Diffusion-XL,该模型在中英双语图文检索和图像生成方面都表现优异,填补了开源模型领域中对双语或中文支持的重要缺口。
Jan, 2024
该研究论文介绍了一个基于中医的大型语言模型,通过从事前训练到强化学习与人类反馈(RLHF)的整个训练流程,以及引入一个包含 7 万个真实医患对话的中文多轮医疗对话数据集 CMtMedQA,该模型在多个方面超越了基线模型,并且通过对该模型的进一步改进来提高其指令遵循能力和安全性。
Aug, 2023
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估 LLMs 在基准生物医学任务中的性能。为此,我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知,这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个 LLM 能够胜过其他 LLMs,不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
开发疗法是一个漫长而昂贵的过程,需要满足许多不同的标准,而能够加快这个过程的人工智能模型将是无价之宝。这篇论文介绍了 Tx-LLM,它是一个通用的大型语言模型,从 PaLM-2 中细调,能够编码关于不同治疗模式的知识,并在药物发现领域的多个阶段上同时进行预测,从而具有竞争力的性能。我们相信 Tx-LLM 是向编码生化知识的 LLMs 迈出的重要一步,未来可能成为整个药物发现开发过程中的一种端到端工具。
Jun, 2024
使用生成型的大型语言模型,在中医问答领域表现令人不满意,本研究引入了一个专门为中医问答设计的对话模型 MedChatZH,该模型在中医经典著作上进行预训练,并结合医学指南数据进行精细调优,在真实的医学对话数据集上胜过了几个基线模型。我们在链接上发布了我们的模型、代码和数据集,以促进传统中医和大型语言模型领域的进一步研究。
Sep, 2023
通过引入视觉语义,将大规模的视觉 - 语言模型 (LVLMs) 融合到多模态对话中,Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片 - 文本生成和理解能力。
Oct, 2023
HuaTuo 是基于 LLaMA 模型,使用生成的 QA 实例进行监督微调,以提高其在生物医学领域任务中的表现,实验结果表明,HuaTuo 生成的响应具有更加可靠的医学知识。
Apr, 2023
本研究旨在为大型模型赋予中医理论特色的专业知识,以构建和组织一个中医领域的专业语料库,并成功基于 LLaMA 开发出首个经历从预训练到监督微调完整训练流程的中医领域大型模型 Qibo。此外,我们还开发了用于评估中医领域大型模型性能的专用工具 Qibo-benchmark,为对不同模型的理解和应用能力在传统中医领域进行量化和比较提供重要依据,并为中医智能助手未来研究方向和实际应用提供指导。最终,我们进行了充分的实验证明 Qibo 在中医领域具有良好的性能。
Mar, 2024
本研究使用英越翻译模型将生物医学数据和基准转化为越南语,并利用大规模的越南语翻译数据训练得到了 ViPubmedT5 编解码 Transformer 模型,该模型在医学摘要和首字母缩写消歧方面取得了最先进的成果,并发布了 ViMedNLI 数据集用于 NLP 任务。
Oct, 2022