云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

腾讯云_商会网站建设_好用

小七 141 0

用Databricks TNSeq流水线加速体细胞变异调用

基因分析是彻底改变我们治疗癌症的关键工具。通过了解肿瘤细胞中存在的突变,研究人员可以获得线索,从而找到药物靶点,最终形成新的治疗方法。同时,单个肿瘤的基因特征使医生能够根据患者的具体情况制定治疗方案,在减少副作用的同时改善预后。然而,基因数据对癌症治疗发展的全部希望尚未实现。在处理和分析癌症基因组测序数据时,缺乏健壮、可扩展或标准化的方法。在一个典型的研究环境中,每个科学家都会选择自己的算法集,然后用定制的粘合代码将它们缝合在一起。这将创建难以管理、扩展或复制的分析工作流。从即席分析转向稳健、可重复和精心设计的基因组数据管道,对于将癌症研究和治疗提升到新的水平至关重要。识别导致癌症的基因变异这一过程的第一步是确定肿瘤细胞与个体非肿瘤细胞的遗传变异。这个过程称为体细胞变异调用。在工业界,大多数研究人员已经将这些数据分析工作流程标准化,这些工作流程被称为MuTect2。虽然MuTect2提供了很高的精确度,但是运行它可能需要几个小时到几天的时间,并且以文本文件格式输出突变,这对于数据科学家分析来说很麻烦。将突变呼叫与临床或影像学数据相结合,需要对不同系统进行额外的复杂整合,从而减缓生成癌症突变的临床报告或人群规模分析的过程。幸运的是,有一条通向Databricks基因组学统一数据分析平台的道路。更具体地说,为了解决上述问题,我们很高兴宣布我们的TNSeq管道(AWS | Azure),它建立在DNASeq管道之上。TNSeq管道使肿瘤学团队能够构建和缩放快速数据分析管道,这些管道直接流入下游的三级分析,用于关键癌症研究。最初,来自肿瘤和生殖系样本的测序DNA被等效于我们的DNASeq管道:读取的数据映射到一个参考基因组,然后纠正常见的测序错误(如PCR重复或有偏差的基础质量分数)。一旦对齐和预处理,体细胞突变就可以通过将肿瘤和种系读数集中在一起,并在肿瘤和种系数据之间寻找不同等位基因的基因组位置来识别。最终,我们的管道将管道延迟减少6倍,总成本降低20%,同时产生等效的体细胞变异调用。我们将变异调用直接输出到Delta-Lake表中,使用Glow模式格式化。这使得管道可以直接输入到报告、注释管道(AWS | Azure)和统计遗传学分析中。通过在Databricks基因组学统一数据分析平台、我们的开源项目Glow和现有单节点工具的基础上构建,我们的管道允许研究人员和临床医生无缝地混合基因组数据工程和数据科学管道,同时减少管道延迟、计算成本和基础设施复杂性。通过将癌症基因组数据与机器学习技术和临床/成像数据相结合,Databricks的客户正在识别推动癌症进展的基因,开发更敏感的癌症早期检测算法,构建下一代临床报告,将基因组学与影像学和其他患者数据相结合,为临床医生提供患者癌症状况的完整图像。加速基因组学运行中的体细胞变异调用我们的管道使用Apache Spark™ Glow并行化BWA-MEM进行对齐,GATK的MuTect2工具用于变量调用。比对是令人尴尬的平行读取,所以我们可以分别为肿瘤和正常样本绘制每个读取片段。然后,我们使用Spark将与基因组某个特定区域相关的所有读操作分组到同一个分区中,必要时可以跨分区复制读操作。这种技术允许我们的管道在实现并行性的同时,使用单节点MuTect2工具生成一致的结果。管道作为Databricks作业运行,因此用户可以使用UI或通过Databricks CLI以编程方式触发新的运行。除了生成标准输出文件(如用于对齐读取的BAM和用于调用变量的VCF)之外,我们的管道还将结果写入Delta Lake表。这种格式简化了数千个癌症样本的组织,并允许使用内置回归测试或通过使用管道转换器与单节点工具(如Samtools)集成来使用Glow进行可伸缩分析。评估我们的体细胞变异调用管道我们使用德州癌症研究生物银行的整个外显子组测序数据,对我们的管道的准确性和性能进行了基准测试。正常样本的测序平均覆盖率为95x,得到6GB的bzip压缩FASTQ文件,而肿瘤样本的测序平均覆盖率为99x,bzip压缩FASTQ文件的平均覆盖率为6.4GB。准确度我们将管道的端到端结果与命令行BWA-MEM和MuTect2进行了比较。我们用过som.py公司产生一致性度量。变量类型精密度召回SNV公司0.99980.9994索引0.99630.9968全部的0.99770.9978由于诸如MuTect2这样的体细胞变体调用工具强调对可能由少量读取支持的变化的敏感性,这些工具对BWA-MEM产生的对齐中的微小变化高度敏感。然而,BWA-MEM使用批内读取的索引来选择同样好的对齐。因为索引在分布式环境中不稳定,所以我们的分布式版本的BWA-MEM可以报告与命令行版本不同的对齐方式,尽管这种可能性是相同的。为了验证这两个变量调用集之间的所有差异是否源于对齐过程中的随机性,我们还对管道生成的对齐的BAM文件运行命令行MuTect2。这些结果与Databricks管道生成的变量调用相同。变量类型精密度召回SNV公司11索引11全部的11由于底层工具的不确定性,我们的管道生成的对齐与命令行BWA-MEM不同。强制我们的管道对单个Spark分区中的所有读取运行对齐,从而生成与命令行BWA-MEM相同的对齐。性能为了评估我们的管道与独立命令行工具的效率,我们将一个c5.9xlarge实例上的运行时与命令行MuTect2和BWA-MEM进行了比较。由于单节点MuTect2管道中可用的并行性有限,所以我们在一个i3.2xlarge实例上运行它,该实例有8个内核。此分析不包括集群初始化时间,集群初始化时间在单个批中运行的所有样本中分摊。管道运行时间(分钟)核心核心小时数命令行259.2832.4数据块54.273632.56加速主要源于命令行MuTect2中有限的多线程处理能力。通过有效地利用集群资源,我们的管道与单节点工具的每核心性能相匹配,同时显著减少了总体运行时间。然而,与开源的GATK体细胞变体调用管道不同,Databricks TNSeq管道被设计成跨多个节点进行扩展。为了演示我们的管道的可伸缩性,我们进行了一个实验,在那里我们添加了额外的工作节点。在所有的实验中,每个worker节点都使用了一个awsc5.9xlarge实例,有36个内核和72GB的内存。运行时几乎与集群中的worker数量成线性增长,尽管超过6个worker之后,收益开始下降。收益递减点取决于总数据大小。对于此数据集,包含6个工作线程的管道的总运行时间仅为9.95分钟。试试看!TNSeq管道提供业界领先的延迟,允许变异数据直接从管道流入高级ML和人口规模分析。此管道可在Databricks Genomics运行时(Azure | AWS)中获得,并且通常可用于所有Databricks用户。在Databricks基因组学统一分析平台中了解更多有关我们基因组学解决方案的信息,并立即试用预览版。免费试用Databricks。今天就开始吧