自新冠肺炎疫情暴发以来,新冠病毒持续演变。因新涌现的高风险病毒变体可能突破现有疫苗与抗体的防护屏障,进而需不断调整防控策略以应对可能的危害,因此,准确且及时地预警高风险变异株对世界各国的疫情防控至关重要。
在“一带一路”国际科学组织联盟(ANSO)联合研究合作专项“全球新发突发传染病危险株系精准预警方法研究”的支持下,国家生物信息中心宋述慧团队基于全球公开发布的新冠病毒全基因组序列,研发了新冠病毒高风险变体早期监测预警的机器学习算法HiRisk-Detector,为全球新冠疫情的精准防控提供了高风险变体监测预警的技术支撑。上述研究成果以“Machine learning early detection of SARS-CoV-2 high-risk variants”为题于2024年10月14日在国际学术期刊Advanced Science在线发表。
该团队基于前期已建立的新冠病毒信息库(RCoV19)和自主研发的海量基因组大数据单体型网络快速解析算法McAN,通过构建并提取连续时序的单体型演化网络特征,经不同机器学习模型和最优特征组合的测试,构建了高风险变体监测预警算法HiRisk-Detector。利用760万多条高质量且完整的新冠病毒基因组及其元数据,验证了HiRisk-Detector的有效性、稳健性和泛化能力。首先,回顾性研究表明HiRisk-Detector可预警到世界卫生组织(WHO)已报道的所有13种高风险变异株,其预警时间比WHO官方公布的时间平均提前27天,验证了其早期预警的有效性。其次,将测序强度抽减至实测量的四分之一,预警延迟仅3.8天,证明了该算法的稳健性。最后,HiRisk-Detector还可应用于对新冠病毒奥密克戎子支系的风险预警,其ROC-AUC和PR-AUC等性能指标均高于0.92,展示了该算法的广泛适用性。总之,HiRisk-Detector具备了高风险变异株早期自动化预警能力,对新发突发传染病防控具有重要应用价值。
HiRisk-Detector算法的源代码已在BioCode*与GitHub*两大平台公开发布,用户可免费下载获取,并可在新冠病毒信息库的高风险变体预警模块*直观浏览追踪HiRisk-Detector的历次预警结果。
HiRisk-Detector算法示意图
供稿人:宋述慧,国家生物信息中心,songshh@big.ac.cn