微生物所开发 AI 驱动的肺炎克雷伯菌噬菌体菌株水平宿主预测方法

发布时间:2026-04-29

抗生素耐药性已成为全球公共卫生的重大威胁。噬菌体作为细菌的天然 "杀手",凭借其高度的宿主特异性,成为对抗多重耐药菌感染的最有前景的治疗手段之一。然而,噬菌体复杂的宿主特异性,既是其独特优势,也是其临床应用的最大难点。传统方法筛选有效噬菌体不仅耗时费力,且难以在菌株水平精准预测裂解潜力。此外,决定宿主范围的噬菌体尾丝蛋白序列高度多样,传统序列比对方法常常难以有效捕捉其特征,导致大量潜在的功能性尾丝蛋白被淹没在海量基因组数据中。

近日,中国科学院微生物研究所国家微生物科学数据中心马俊才团队与微生物多样性与资源创新利用全国重点实验室冯婕团队合作,开发了基于蛋白语言模型的集成方法——PhageHost (P&H),实现了大规模噬菌体尾丝蛋白的挖掘,并可对肺炎克雷伯菌宿主进行菌株水平的精准预测,为噬菌体治疗等应用场景提供了强大的AI工具。PhageHost是一个从基因组数据分析到宿主裂解预测的自动化流程,由两个核心模块组成。

TailSeek是一款利用蛋白语言模型开发的噬菌体尾丝蛋白识别工具,能突破序列相似性的限制,发现传统方法无法捕捉的潜在尾丝蛋白。研究团队利用蛋白语言模型 (PLM) 强大的序列到功能的映射能力,开发出新一代挖掘方法,从上千万条来自原噬菌体的蛋白序列中,系统学习到丰富的尾丝蛋白特征。模型在针对未见过的烈性噬菌体蛋白测试集中,仍能保持0.9534的AUROC水平,显著优于传统BLASTP序列比对方法,充分显示其强大的泛化能力。为进一步验证模型效果,研究团队从新挖掘出的尾丝蛋白中选取部分序列进行试验验证,结果显示8条序列全部具有典型的尾丝蛋白结构以及针对荚膜的解聚酶活性。

HostBuster是一个整合尾丝蛋白特征与宿主荚膜基因信息的机器学习模型,实现了对噬菌体肺炎克雷伯菌宿主在菌株水平的高准确率裂解预测。在个性化噬菌体疗法中,需要快速且准确地筛选出能够特异性杀死目标菌株的噬菌体。现有的大多数宿主预测工具只能在种属水平进行预测,无法满足精准治疗的需求。研究团队以肺炎克雷伯菌荚膜多糖 (K抗原)为切入点,将TailSeek预测的尾丝蛋白与宿主K locus的基因信息相结合,开发了HostBuster 预测模型。模型使用包含8,954对经过实验证实的噬菌体-宿主组合的数据集进行训练后,在模拟临床场景的实验验证中,HostBuster对新分离的肺炎克雷伯菌株实现了91.18%的准确预测率。

团队通过测试数据和体外实验,验证了TailSeek和HostBuster的可靠性以及泛化能力。该研究为大规模功能蛋白的挖掘提供了新范式。未来,研究团队将进一步扩展 PhageHost的适用范围,纳入更多细菌种类和其他类型的受体结合蛋白,并整合更多噬菌体及宿主生物学特征,不断提升方法的准确性和泛化能力。

PhageHost噬菌体尾丝蛋白挖掘及宿主特异性预测

中国科学院微生物研究所吴江助理研究员和王超副研究员为该论文的共同第一作者,吴林寰正高级工程师和冯婕研究员为文章共同通讯作者。该研究得到了国家重点研发计划、国家自然科学基金重大项目以及中国科学院战略生物资源计划的支持。

论文链接:

https://www.cell.com/cell-reports/fulltext/S2211-1247(26)00353-0

在线工具:

https://nmdc.cn/phage/tools/phagehost

代码与数据下载:

https://nmdc.cn/phage/download




附件下载: