科学家 · 科研服务:0571-87885727
  医   生 · 精准医疗:0571-87885730
  大   众 · 健康检测:0571-87181268
当前所在位置 >HABOT软件简介

HABOT软件简介

1、背景介绍

Illumina的二代测序技术,以其高质量和准确性,成为了很多科研工作者的首选平台,目前它的平均读长为100bp~300bp,由于它的高质量、较低成本,极大地推进了生物信息学的发展,有大量的物种基因组参考序列是基于这个平台进行破译研究的。但是由于读长的局限性,同时复杂基因组中包含着许多高GC,高重复的区域,Illumina在这些基因组的组装上表现并不理想。

PacBio RSII是目前市场上应用最成熟的三代测序平台,它的平均测序读长为14k, 可以跨越大部分的重复区域,在基因组的组装中有极大的优势,极大地克服了二代读长短的缺点,目前它非常成熟地运用在微生物完成图的拼接中。

但是,由于单分子实时测序的错误率相对较高,单次测序错误率15%, 循环测序误差8%左右,其准确度与第二代测序技术有很大的差距,传统的纠错方法非常消耗计算资源,大基因组的计算量非常巨大,使得目前只有少数机构能使用这种技术。

针对现有平台中存在的问题,HABOT软件能将二代测序技术所得的高精度短片段序列数据和PacBio单分子实时测序所得长片段序列数据结合在一起进行基因组序列的组装,提高组装效率和准确率而且能够节省数据处理的时间。

 

2、HABOT原理:

HABOT软件充分利用了第三代测序仪PacBio RSII的读长优势,将其生成的数据和第二代测序仪生成的精确短读序数据结合在一起,使得基因组装配结果准确性大幅提高,拼接的重叠群平均长度是二代测序仪所能得到的两倍以上。

 

HABOT流程说明(见图1)

A:左)利用第二代测序技术对样品进行测序,获得所述样品的高精度短片段序列;对获得的所述高精度短片段序列进行拼接,获得高精度的框架图;

右)利用PacBio平台,对样品进行测序,获得所述同样来源样品的三代序列;

B、C、D:先利用BWT和LCS算法,将三代数据和框架图进行详细比对;再利用所获得的详细比对信息进行聚类并构建框骨架;

E、对骨架进行纠错,它包括两种纠错方法:

1)使用HGAP中自带的纠错模块,使用三代数据进行自纠错;

2)使用LoRDEC 软件利用Illumina二代数据来纠正骨架。

HABOTruanjianyuanlishiyitu

图1 HABOT软件原理示意图

(工作日:8:30-17:30)