病毒测序分析原理(生物信息分析技术评测)

编辑/雪松

病毒是地球上存在最丰富的生物实体之一。然而,已知的病毒遗传信息数量比少之又少。当前的研究病毒的常用技术是宏基因组测序分析。但是,由于病毒的基因组较小,阅读丰富较低,病毒读数占比通常不到宏基因组序列的5%。

来自科罗拉多大学安舒茨分校的研究人员,对Vibrant、VirSorter、VirSorter2、VirFinder、DeepVirFinder、MetaPhinder、KraKen2、Phybrid、BLAST,9种先进的生物信息学工具进行了基准测试,评估了9种工具在宏基因组数据中识别病毒和噬菌体序列的能力。对病毒识别工具进行全面分析,评估它们在各种情况下的性能,将为公开的宏基因组数据中挖掘病毒序列的研究人员提供重要参考。

本研究于2021年6月16日以「Simulation study and comparative evaluation of viral contiguous sequence identification tools」为题发布在《BMC Bioinformatics》杂志

病毒测序分析原理(生物信息分析技术评测)(1)

背景

起初,病毒的研究发展相对缓慢,原因在于病毒营寄生生活难以扩大培养,更有大量病毒无法通过实验室培养获得。病毒的分离纯化相对困难,进一步限制了病毒的研究。但随着测序技术的发展,研究宏基因组逐渐成为研究病毒最有效的方法。

通过测序科学家已经拿到了大量病毒的基因组,但是相比于原核生物和真核生物,病毒基因组的数据丰度依然少之又少。原因是多方面的,首先病毒的基因组较小,且没有通用的靶标序列,不易被发掘;另一方面,许多溶源噬菌体(一种侵染细菌的病毒)的基因组会嵌合在宿主基因组中难以发现。为解决这一问题,研究人员开发了各种序列分析软件,包括基于机器学习的序列分析软件。在这里,科罗拉多大学的研究人员主要对当前比较常用的九种序列分析工具进行了评测。

方法与手段

病毒测序分析原理(生物信息分析技术评测)(2)

图示1,测试所用的四种宏基因组。(来源:论文)

为了综合检验这些软件的性能,研究人员利用机器算法构建了四种类型的基因组数据集;之后利用这些工具对嵌合的病毒基因组进行识别分析,然后运用这些工具对识别到的病毒基因组进行仿真模拟;同时利用相应算法对每种序列工具的整体性能(准确率、召回率、F值)进行打分;除了整体性能外,工具性能还以四个离散重叠群长度进行评估:1 KB–2.5 KB、2.5 KB–5 KB、5 KB–10 KB、10 KB 。

结果与讨论

病毒测序分析原理(生物信息分析技术评测)(3)

图示2,识别噬菌体时的工具平均性能和模拟排名。(来源:论文)

病毒测序分析原理(生物信息分析技术评测)(4)

图示3,按分类学条件计算的工具的F1分数。(来源:论文)

不同读取模拟条件下的 F1 性能没有显着差异(H = 4.02,p = 0.404,Kruskal-Wallis)。Te F1 性能因分类复杂性而显著不同;相比于中、高复杂性模拟(H = 47.65,p = 4.50e-11,Kruskal-Wallis),在低复杂性模拟中具有更好的工具性能。应对较长重叠群时的 F1 性能、精确度和召回率,特别是10KB bin 相对于其他重叠群长度更高(H = 275.7,p = 1.82e-59,Kruskal-Wallis)。图示2展示了工具的平均性能和 30 次模拟的平均排名。图示3 显示了由分类复杂性离散的模拟中工具的 F1 性能。

Kraken2 在平均准确率和精度排名中均处于领先地位。在这项研究中,BLASTp工具在搜索蛋白质方面,其召回率和召回率排名表现最佳。具有最高平均 F1 分数和最佳 F1 排名的工具是 VirSorter;VirSorter同时也是用于执行原噬菌体识别的工具;这使得VirSorter在噬菌体鉴定方面比其他工具更具优势。

病毒测序分析原理(生物信息分析技术评测)(5)

图示4,识别预测菌体时的工具平均性能和模拟排名。(来源:论文)

图示4展示了,在 20 个中高复杂度模拟时,识别原噬菌体工具的 F1 性能。随着重叠群长度的增加,工具的性能得到提高。图示5展示了每个工具在定义的重叠群长度盒子内的 F1 性能。如果工具的 F1 分数为 0,则该记录将被删除,因为一些较低复杂度的模拟缺少较短的连续序列。

病毒测序分析原理(生物信息分析技术评测)(6)

图示5,在所有模拟中跨重叠群长度集合的工具的 F1 分数。(来源:论文)

在30个宿主属中计算了来自中等和完全分布的病毒元素的召回分数。召回仅在大于0时保留,以防止生态位缺少噬菌体宿主属。图示6显示了所有工具中宿主属对病毒重叠群的召回。召回最好的病毒宿主属是黄单胞菌属。感染肠球菌的噬菌体在所有工具中的平均召回率超过0.83。DeepVirFinder 在识别感染肠球菌的噬菌体方面表现最好,平均召回率为 0.97。奈瑟菌原噬菌体序列在所有工具中的平均召回率最低 (0.23),只有 7 个工具正确预测了奈瑟菌原噬菌体重叠群。使用来自 Earth Virome Pipeline 的蛋白质进行的 BLASTp 搜索,在识别未知的原噬菌体方面表现最佳 (召回率为0.68),其次是 MetaPhinder(召回率为0.24)。

病毒测序分析原理(生物信息分析技术评测)(7)

图示6,宿主属在中等和完全复杂性模拟中的病毒召回。(来源:论文)

这项研究对宏基因组学中病毒识别工具的性能,进行了基准测试和比较。病毒识别性能指标与属/原噬菌体召回相结合,突出了使用特定病毒识别工具的优势和挑战。该研究可作为指导,协助后续研究选择工具。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04242-0

参考内容:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8207588/

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页