基因检测的测序深度,是越高越好吗?
作者:闵
随着NGS二代测序技术在非小细胞肺癌、乳腺癌等癌种的日常诊疗中应用越来越普遍,越来越多的病友开始学习了解这项基因检测技术,并对一些技术参数很好奇。
不少基因检测的宣传中经常提及测序深度高、血液检测准,无形中让很多病人产生了“测序深度高=检测技术好=能检测的突变多=血液一定准”的概念。那么真相是否是这样呢?
认识NGS二代测序
NGS二代测序是现在使用最为普遍的基因检测技术,所谓“测序”通俗来说就是搞清楚目标基因的碱基(ATCG)排列顺序。目前市面上常用的二代测序仪大多为Illumina公司生产,也有部分为ABI公司或者华大自主研发生产的,不同公司的具体检测原理略有区别,但步骤大体上还是分为:
1、建库2、扩增3、测序
我们常说的各种基因实际上是完整DNA链上的某一段具有实际意义的碱基序列,它们与很多冗余无意义的碱基对首尾相连共同组成了遗传物质DNA。
DNA与基因的长度是通过碱基对多少来衡量,一个碱基即为1bp(各位可以想象成长度单位1cm等等),通常一个基因的长度都在几千个bp。
二代测序的具体流程,简单来说就是先通过试剂将提取好的待检测完整DNA打断成长度较短(200bp - 500bp)的DNA链,再利用PCR技术将这些较短的DNA链数量增加,接着通过各自的特有方式分析前面所得全部DNA链的具体碱基排布(即测序),最后使用生物信息分析工具将所得信息汇总拼接得出待检测目标基因的状态,比如突变与否、哪个位点发生突变。
什么是测序深度
测序深度是NGS技术特有的一个技术参数,指测序得到的碱基总量(bp)与目标基因组大小(Genome)的比值,由reads数量乘以reads长度再除以目标基因组量计算得到。
举个例子,比如某次检测产生10000条reads,读长150bp,而目标基因总长为20000bp,那么测序深度就是10000*150/20000=75X。
reads长度简单来说就是测序仪阅读的长度,以illumina nextseq500型号为例,读长一般为75bp或150bp;reads数量可以理解为读取的次数,比如目标DNA被打断成500bp的短链,最少需要读取3条才能覆盖,也有可能出现重叠部分,导致读取条数增加,总之读取条数越多越有把握覆盖目标DNA链。
决定测序深度的关键在于reads的数量与长度,不同的二代测序设备的读长有不同,但reads数量可根据需要自行调整,换句话说,较高的测序深度并非某设备、某检测公司独有,各个二代测序仪可以自行调整需要的测序深度。
提升测序深度带来的一些讨论
1、不同样本需要的测序深度不同
常用的基因检测标本分为组织样本(FFPE)与血液样本(ctDNA)两大类,两者之间优先选择谁的讨论已经很多,这里不再赘述,也暂时不讨论能否做病理诊断而给两者带来的差异。
从检测技术角度来看,FFPE样本与ctDNA样本最大的区别在于所提取到的DNA总量。通常情况下FFPE样本中提取到的样本至少应在250ng以上才算合格,而ctDNA样本的DNA总量则应在30ng以上。
由于两种样本能够提取到的DNA总量差异很大,因此实际检测过程中所需要的测序深度也有差异,通常情况下FFPE样本只需要2000-5000x即可,而ctDNA样本则需要10000x上下,简单点说就是能够提取到的DNA总量足够多就不需要太高的测序深度。
2、提升测序深度可以提升检测灵敏度和特异性,但存在检测极限
根据测序深度的定义及计算方法,我们可以认为测序深度越高,测序量越大,相应的每一个碱基被读取到的次数就越多,那么理论上发现位点突变的可能性就变大,因此提升测序深度有助于提升检测的灵敏度与特异性。
然而这种检测覆盖存在上限,当测序深度达到一定程度后,reads足够多,待检测目标基因的每个碱基都至少被读取一次甚至更多次,此时再增加测序深度对于灵敏度及特异性提升不明显。
2022年由赫捷教授与高树庚教授领衔发表了一项研究 ,纳入了292例I期的肺腺癌患者以及230例健康人群作为对照,采用全基因组测序[注]。研究比较了从0.5x到4x等不同测序深度下,灵敏度与特异性的差异,可以看到随着测序深度提升到2X以上时,灵敏度与特异性的AUC曲线提升就不显著了。
注:该研究采用的测序Panel为全基因组测序,自身Panel大小远高于平时各位接触到的“靶向套餐”与“全基因套餐”,因此根据公式计算得到的测序深度看起来不高,实际测序数据量很大。
3、测序深度升高能增加检测出基因突变的概率吗?
前面提到当接近检测极限时,增加测序深度对于提升检测灵敏度及特异性的帮助有限,继续盲目提升测序深度会产生的大量PCR及读取数据反而可能会引入低频率的假阳性突变。
未加特殊纠错处理的常规情况下,ctDNA样本的测序深度一般控制在5000x-10000x左右,最低的检测限约在0.5%-1%,即突变频率(即“丰度”)在此以上的基因突变基本都可以检测到。
在这基础上提升测序深度则可能由于冗余扩增导致低频的假阳性结果,读取到极低频率的非源自于原始DNA样本的突变。
为了减少读取错误,可以在测序过程中加入单分子标签(UMI,一种减弱低频假阳性干扰的纠错方式,不局限于特定二代测序仪)。加入UMI之后,为满足纠错目的,通常需要将测序深度提升到20000x以上,可将最低检测限提升至0.01%。
从结果来看,提升测序深度确实能够增加检测到低频(低于0.5%)突变的可能,即混在样本中的含量偏低的突变基因也有可能被检测到,但也给我们带来一个困惑——这些低频突变中即使有诸如EGFR等驱动基因是否能够指导治疗?(注:即有可能检测到的低频驱动基因点突变也是假阳性)
另外由于加入UMI的同时会增加检测成本,因此一般选择100个基因左右或以下的小Panel,大Panel出于成本考虑及检测数据量考虑,通常不会添加UMI。
4、测序深度达到30000x以上是否就能完全克服血液假阴性导致的漏检现象?
关于这个问题,我在之前一篇MRD的讨论中举过例子。(详情请点击文章阅读《MRD≈血液基因检测?》)
2021年由高树庚教授团队发表了一篇MRD预测术后辅助治疗收益的研究,研究中采用138个基因的Panel,测序深度达30000x。
该研究的补充材料统计共89名患者接受了术前血检测与术后组织样本检测,其中有28名患者术前血液检测为阴性,然而这28名术前MRD阴性的患者中仅1人术后组织标本检测确实没有发现突变,即剩下27名患者经手术样本确认存在基因突变,但术前血液却发生了漏检。
这样的结果也提示,即便测序深度达到30000x,能够检测到丰度0.02%的低频突变,也无法完全克服血液的假阴性漏检问题。
总结
测序深度是NGS检测技术中一个常见的技术参数,定义为测序得到的碱基总量(bp)与目标基因组大小(Genome)的比值,测序深度越高,待检测DNA中每个碱基被读取到的次数就越多。
我们需要认识以下4点:
[*]不同样本提取到的DNA总量有差异,DNA总量越多、质量越好则需要的测序深度就相应降低,血液样本ctDNA检测通常需要较高的测序深度;
[*]提升测序深度可以增加检测的灵敏度与特异性,但并非无限增加,当达到一定范围后,继续加深则对灵敏度和特异性的作用不明显;
[*]提升测序深度可能增加样本中含量较低的基因突变的检出率,但这些低频突变(包括驱动基因)的临床意义值得讨论,加入UMI标签可降低错误率,但此举会增加检测成本、提高检测费用;
[*]测序深度达到30000x以上能够检出低频突变,但仍不能杜绝血液样本的假阴性漏检,发生概率约30%;
简单来说就是一句话,测序深度并非越高越好,要根据样本、检测技术以及检测目的选择。
参考文献 Guo W, Chen X, Liu R, et al. Sensitive detection of stage I lung adenocarcinoma using plasma cell-free DNA breakpoint motif profiling. EBioMedicine, 2022, 81: 104131. Jennings L J, Arcila M E, Corless C, et al. Guidelines for validation of next-generation sequencing–based oncology panels: a joint consensus recommendation of the Association for Molecular Pathology and College of American Pathologists. The Journal of molecular diagnostics, 2017, 19(3): 341-365.Jennings L J, Arcila M E, Corless C, et al. Guidelines for validation of next-generation sequencing–based oncology panels: a joint consensus recommendation of the Association for Molecular Pathology and College of American Pathologists. The Journal of molecular diagnostics, 2017, 19(3): 341-365.
往期回顾丨闵的其他精彩文章
教你解读PD-L1表达检测结果!MRD≈血液基因检测?经常交流病情还感到迷茫?可能咨询方式出了问题!介入治疗(上)常见的介入治疗手段与应用介入治疗(下)介入治疗在肺癌中的应用与治疗效果
页:
[1]