基因測序數據分析加速面臨的挑戰
· 基因測序分析流程BWT+GATK當前被業界廣泛采納,但采用此流程的傳統測序方法需要消耗高額算力及存儲資源,且耗時較長。
· 針對基因測序中高算力需求的smith-waterman,pair-hmm等算法處理,其具有計算并行性,不連續,非規則的存儲訪問,低bit操作等特性,計算依賴不規則區域的操作會對CPU消耗很大,性能難以提升。
02
華為云FPGA基因加速解決方案的優勢
為了更好的解決基因測序行業面臨的基因組分析標準流程不經濟高效以及跨不同云和硬件(CPUs,FPGAs)加速實現的雙重挑戰,華為云和峰科計算強強聯合,合作推出符合行業標準的GATK加速流程,通過對基因測序數據分析流程進行軟、硬件聯合優化實現端到端加速。
· 華為云提供業界領先的FPGA加速云服務平臺,采用業界領先的Xilinx 16nm Virtex UltraScale+ VU9P FPGA,并針對基因場景推出32核CPU 224GB內存1*VU9P FPGA和64核CPU 448GB內存2*VU9P FPGA規格的實例,實現了GATK 軟件處理流程和FPGA加速流程的完美結合,從而將加速效率提升3~5倍;
· 峰科采用GATK標準分析流程,精準性與GATK標準流程完全吻合,精度可達99.95%以上;
· 不修改GATK標準流程,可訪問讀取從原始測序數據到生成vcf文件整個過程中的中間數據,便于科研用戶使用比對。
03
華為云FPGA基因加速解決方案解析
華為云FPGA基因加速解決方案集成峰科的加速IP,為用戶提供一種易于使用,經濟實惠的基于FPGA的基因組分析流程加速服務,在該方案中,華為云配備了32核CPU,單個VU9P FPGA的實例。
華為云FPGA基因加速解決方案使用GATK最佳方案對種系突變和體細胞突變進行變異檢測,將計算密集型算法如Smith-Waterman、PairHMM等確定為加速對象。每種算法都經過FPGA內核優化,并且實現CPU-FPGA協同執行和資源分配。
如圖1所示,用戶通過分析應用程序,把每個流程的數據傳給華為云峰科加速平臺,平臺里的Kestrel運行時管理工具來管理CPU-FPGA協同執行和資源分配。利用多線程,I / O優化和擴展使用FPGA加速器,華為云FPGA基因加速服務的基因組學分析流程在保證精準度的情況下提供顯著的加速。
與GATK 最佳使用流程相對稱,典型的基因測序數據分析流程始于原始FASTQ序列兩端讀長(paired-end reads),進一步獲取一組經過濾的變體,對其進行標記以供進一步分析。圖2描述了華為云基因加速服務種系變異調用流水線的具體流程,中間面板指示開始的通常工作流程,上下分別顯示華為云FPGA基因加速方案中的峰科加速流程和GATK最佳使用流程命令實現方式的工作流程。
圖2 華為云峰科基因加速流程和GATK最佳使用流程對比
基于華為云FPGA加速服務,使用FPGA優化加速GATK流程,基因組分析流程可以實現3~5倍速度提升和99.95%以上的準確度。華為云FPGA基因加速解決方案最快基因組序列分析標準流程可在一天內完成5個全基因組或24個整體外顯子組分析。
Performance comparison for GATK 3.8 WGS from Alignment to Variant Calling using Hoplotypecaller
:測試數據使用的是30X的WGS樣本,堿基數量103G