CN105760712B

CN105760712B - 一种基于新一代测序的拷贝数变异检测方法

Info

Publication number: CN105760712B
Application number: CN201610114354.8A
Authority: CN
Inventors: 李垚垚; 袁细国; 张军英; 杨利英; 白俊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-03-01
Filing date: 2016-03-01
Publication date: 2019-03-26
Anticipated expiration: 2036-03-01
Also published as: CN105760712A

Abstract

本发明公开了一种基于新一代测序的拷贝数变异检测方法，该方法包括拷贝数变异数据的预处理、滑动窗口的构造、统计量的计算、置换策略的实施与零分布的构造、算法的性能评估，算法的性能评估采用判断算法能否在错误肯定率可控的情况下，获得较高的正确肯定率，评价算法是否能够较准确地估计p值，拷贝数变异的边界检出能力；分析算法的计算复杂度。本发明解决了由于测序平台及测序水平不同引起的拷贝数变异检测误差问题，令结果更准确；利用从多峰频率直方图特点归一化数据，以准确划分正常区域和拷贝数变异区域；本发明变异reads数与变异位点间关联性的综合作用，建立新模型，解决不一致性问题，客观估计拷贝数变异的显著性水平。

Description

一种基于新一代测序的拷贝数变异检测方法

技术领域

本发明属于DNA分子进行序列测定的高通量测序技术领域，尤其涉及一种基于新一代测序的拷贝数变异检测方法。

背景技术

拷贝数变异(copy number variation,CNV)是癌症基因组中的重要现象。它主要表现为拷贝数的扩增和缺失两种状态，与癌细胞的发生、发展有密切联系。检测多个癌症样本中相同区域共同发生的CNV，并整合分析CNV在全基因组表达水平上的影响，识别那些受CNV影响表达的癌症基因，这对于研究癌症的发生和转移具有重要的意义。虽然基于单样本的CNV检测方法已经愈来愈成熟，但是这些方法在检测灵敏度与精确度等方面依旧不能满足多个样本共同发生CNV区域的检测，因此，对CNV进行系统的分析为从分子水平上研究癌症的致病机理提供了重要途径，其最底层、最核心的问题是如何检测多个癌症样本中与肿瘤相关基因相关的CNV。

新一代测序(Next Generation Sequencing,NGS)技术是一次可获得上百万条甚至几百万条的短序列信息的高通量测序技术，具有高速度、高分辨率、低成本、可重复性高等优点。因此，基于NGS数据来研究检测CNV大大提高了速度与准确性，同时还降低了成本。

众多研究表明，CNV功能模式往往隐含于癌症基因组样本的一致变异区域中，且NGS中比对到基因组每一区域的序列数值与该区域的拷贝数值成比例关系，那么建立以统计理论为基础的计算方法，检测CNV在多个癌症样本中共同发生的(Common)显著性水平，为鉴定CNV功能模式及发现潜在癌症基因提供直接的、可行的技术手段，进而为生物医学家对癌症的预测和诊断提供重要信息。因此，建立合理而有效的统计检验模型至关重要。

高通量全基因组CNV位点的密集性及其结构的复杂性，给统计检验模型的建立及CNV显著性的检测带来了极大的挑战，主要体现在以下两个方面。第一，问题本身的难点：a)位点数目高达180多万而样本数往往较少，形成了一种高纬度小样本的数据格局；b)测序平台及测序水平不同带来的系统误差，以及对不同测序水平的样本进行归一化处理；c)基因位点对应的reads信号(read depth,RD)易受到测序错误、比对错误等噪声的影响；d)CNV位点之间存在较强的关联性，并非独立，使得检测因子之间存在交互影响；e)检测拷贝数扩增或缺失状态要考虑两方面的特征，即位点对应reads数和位点间的关联性，这要求一个合理的权衡这两个特征的机制。第二，解决问题的理论和方法的挑战性：a)数据规模大，对计算时间和空间复杂度的有效控制是一个挑战问题；b)如何充分考虑CNV位点间的关联性、降低CNV显著性水平估计的保守性，是一个难点问题；c)如何建立与统计量具有一致性的零假设分布，增强显著性水平估计的统计意义，是一个重点且目前尚未突破的问题。

从技术上分析，从样本数量考虑，目前现有的拷贝变异检测方法主要分为以下基于单一样本分析的CNV检测方法和基于多样本的方法。从技术上主要有：基于荧光位点杂交技术的检测方法、基于微阵列的比较基因组杂交技术和基因新一代测序技术的拷贝数检测方法。前两种方法分辨率很低且很难检测到短的CNV，而基于NGS的方法因其具高通量的优势而愈发凸显。基于NGS的CNV检测方法主要分为基于PEM(pair-end mapping)签名和基于DOC(depth of coverage)两种技术路线。基于PEM的方法虽然能够检测出小片段的CNV但很难检测大片段的插入(拷贝数扩增)和复杂区域的CNV(如SDs)。基于DOC的方法可以检测大片段的CNV。因此也存在一些二者结合的方法，如CNVer，通过整合DOC和PEM签名来提高CNV区域的断点准确率。目前基于DOC的方法更加受到青睐。

基于分割的DOC检测模型主要涉及不同的分割方法，如CBS，LASSO等。不同的分割方法产生的检测结果也不尽相同。如ReadDepth采用CBS分割算法能够更精确地识别拷贝数变异的边界，在检测低覆盖率数据时仍具有较高的灵敏度和特异度。FREEC方法不受控制样本的约束，采用LASSO回归精确CNV边界，但忽视局部reads数变异，易造成错误发现；同时也可能受到亚克隆性影响GC含量标准化进而影响CNV检测。Segseq方法和rSW-seq方法由于直接和控制样本作比较，可快速检测并精确识别CNV区域，但是它没有考虑多个样本的局部特征化特点，导致结果误差很大。由于测序技术和基因组的局部特征化特点，分割算法会令结果的假阳性比较高。seqCNA也不要求控制样本，采用LOESS或多态拟合适用于检测局部小片段的CNV，但不适合检测癌症样本数据。

基于假设检验的DOC统计显著性模型主要涉及到两个关键要素，即检验统计量与零分布，它们设计的好坏直接影响到显著性水平估计的有效性及CNV功能模式的鉴定性能。EWT方法对连续片段(窗口)的RD拟合高斯概率分布模型，采用单边Z-test检验检测CNV，可以检测出大片段的拷贝数变异区域，但是EWT没有考虑位点间的关联性，不能精确检测插入(CNV)的位置且对小片段的CNV不敏感。CNV-seq方法对非重叠片段(窗口)的RD比值(与参考样本)拟合泊松分布模型，计算Z-score的显著性同时引入分割算法来检测CNV，提高了对低覆盖率数据检测的灵敏度，但易提高假阳性。CNA-seg基于segseq和JointSLM的HMM方法，同时引入卡方χ²统计量检测CNV。

目前基于DOC的多样本共同CNV的检测方法依旧不是很成熟，检测方法主要有CMDS方法[17]、cn.MOPS方法、JointSLM方法以及基于惩罚稀疏回归模型的检测方法等。其中CMDS方法对多个样本的单个位点构建相关对角矩阵计算其显著性来检测CNV，与检测单个样本相比准确率更高，同时提高了时间与空间复杂度的性价比。cn.MOPS方法降低技术和生物变异的噪声影响，适用于检测多个样本相同区域变异幅度不一致的CNV，而对幅度一致的CNV不敏感。JointSLM方法是EWT在多样本检测的延伸，同时引入隐马尔可夫模型(HMM)来检测CNV，但是当部分样本中发生共同的CNV时，其束手无策。基于惩罚系数回归模型的检测方法是对多个样本的RD signal拟合一个惩罚回归模型，将对common CNV(cCNV)边界检测转化为改变点(change point)检测问题并利用显著性检验方法检测，从而提高了准确率并降低错误发现率。但是但多个样本数据的祖先不同时其准确率会下降。

通过对现有的这些基于DOC的模型[3,7,9-27]分析比较可知，大部分方法会产生一个很高的错误发现率，尤其在没有参考样本时，特征尤为突出。现有的基于NGS的显著性模型，在设计统计量时都是以CNV结构片段为检测基元，而在量化统计量时使用了CNV的频率和幅度、及CNV位点间关联性的信息。对于零分布的构造，绝大多数方法都是通过随机置换策略实现的。

从CNV数据的生物特征上分析，CNV位点之间并不独立，即邻近的CNV位点是一个有机整体，那么以单个位点为检测基元难以客观估计CNV的显著性水平，以结构片段为检测基元又容易忽视结构内部位点的关联性；其次，尽管有多种方法在计算统计量时考虑了CNV的reads数和位点的关联性，但它们没有对这两个特征进行合理的权衡，容易误检CNV。

现有CNV显著性水平检测方法主要存在以下不足：

(1)以单个CNV位点为基元的统计量，容易导致显著性水平估计的保守性；以CNV结构片段为基元统计量虽在一定程度上保留了拷贝数的固有结构特性，但忽视了内部位点间的相关性，难以客观估计统计量CNV的显著性水平。

(2)没有合理权衡CNV的频率和变异位点的关联性，使得CNV与癌症关联的生物表现难以定位；

(3)基于单样本检测的方法在检测多个样本的cCNV时，系统误差或平台错误问题严重。

(4)没有自动综合来自不同测序平台或测序水平的多个样本，使得在检测多个样本共同发生的CNV功能模式时存在较大的局限性；

(5)针对low-coverage水平的样本数据，不敏感，检测效果不佳。

发明内容

本发明的目的在于提供一种基于新一代测序的拷贝数变异检测方法，旨在针对不同coverage的数据采取不同的归一化处理措施，令数据更具可操作性，减少系统误差；整合多个样本，提出一套以CNV结构单位为基元的显著性水平检测理论与方法；以有监督学习机制为引导，建立与统计量具有一致性的零分布，以提高显著性水平估计的准确度。

本发明是这样实现的，一种基于新一代测序的拷贝数变异检测方法，一种基于新一代测序的拷贝数变异检测方法，该基于新一代测序的拷贝数变异检测方法包括以下步骤：

拷贝数变异数据的预处理：过滤掉CNV信号的Batch效应及比对过程中比对质量相对很低的reads；通过标准化GC含量，调整数据样本位点对应的reads数；对多个样本的测序水平归一化处理成对应同一测序水平的数据；对于覆盖深度低的数据样本，直接将数据归一化成同一水平；对于覆盖深度高的数据样本，根据其数据频率直方图特点先定义出拷贝数扩增与缺失状态；

滑动窗口的构造：综合标准化处理后的多个样本，得一个高维矩阵；拟构造滑动窗口从起始位置计算位点的频数同时利用Pearson公式计算每个窗口内位点间的相关性，逐渐滑动窗口，直至遍及每个位点；计算位点间的相关性；

统计量的计算：计算每个滑动窗口内每一位点的统计量反映拷贝数变异的扩增或缺失状态，利用已知的拷贝数变异功能模式构造训练集，学习频数和相关系数的权重，w₁和w₂，以计算统计量，

S_test＝w₁*f+w₂*a

其中，f，a，S_test分别指训练集中拷贝数变异功能模式的频数，相关性，及统计量的值；

置换策略的实施与零分布的构造：对标准化后的多个样本计算全基因组上各个位点对应的检测统计量，构造零分布T，然后对样本数据实施随机置换，对每一样本，随机置换其在全基因组中出现的位置，直至s个样本均被置换，构成一个全置换样本集；对每个置换样本集，计算随机拷贝数变异发生的统计量；最后计算检测统计量的显著性水平：

基于CNV显著性水平的估计：由得到的样本所有位点对应的p值评价CNV发生的区域，若p值小于某设定的阈值(如0.05)，则我们认为该CNV具有生物意义或癌症功能。对每个CNV结构单元，分别建立扩增和缺失状态的零分布，以分别检测扩增和缺失状态的显著性水平。

算法的性能评估：判断算法能否在错误肯定率(FPR)可控的情况下，获得较高的正确肯定率(TPR)；评价算法是否能够较准确地估计p值(Type I Error Rate)；拷贝数变异的边界检出能力；分析算法的计算复杂度。

进一步，所述过滤掉CNV信号的Batch效应及比对过程中比对质量相对很低的reads中reads<Q30。

进一步，所述综合标准化处理后的多个样本，得到一个高维矩阵中高维矩阵为样本个数s*样本的位点数N，所述以一段区域呈现的拷贝数变异邻近拷贝数变异位点间的关联性比较强，高达0.985，距离较远的位点间关联性比较弱。

进一步，所述针对每个滑动窗口，计算其统计量以反映拷贝数变异的扩增或缺失状态，对于低覆盖度样本，直接计算每个位点对应的reads数频数和该位点与窗内其他位点间的相关系数，综合它的频数和相关系数来量化其统计量(S)；对于高覆盖深度的样本，利用频率直方图巧妙精确地将拷贝数的扩增和缺失这两种有不同的生物功能表现的状态区分开，分别计算这两种状态的统计量(S)。

进一步，所述统计量的计算中S_test在训练集中拟通过公共数据库中已知的拷贝数变异功能模式与基因表达水平的关系对其赋予相对值。

进一步，所述对标准化后的多个样本计算全基因组上各个位点对应的检测统计量，构造零分布T，然后对样本数据实施随机置换中样本数据为数据矩阵中的每一行代表一个样本，每一列代表全基因组上的一个位点。

进一步，所述基于CNV长度的零分布设计与显著性水平的估计中若p值小于设定的0.05阈值，该CNV具有生物意义或癌症功能，所述CNV的扩增和缺失状态具有不同的生物功能及表现。

进一步，所述算法的性能评估中评价算法是否能够较准确地估计p值，即算法的统计模型是否具有较强的统计意义。

本发明解决了现有技术在拷贝数变异显著性估计时容易陷入保守性的问题；本发明自动综合检测多个样本在相同区域共同发生拷贝数变异的区域，避免了现有技术仅检测单一样本或配对样本的拷贝数变异区域的检测误差，从患病人群中研究拷贝数变异与癌症的关系；本发明解决了由于测序平台及测序水平不同引起的拷贝数变异检测误差问题，令结果更准确；本发明针对新一代测序数据格式利用从多峰频率直方图特点归一化数据，以准确划分正常区域和拷贝数变异区域；现有技术仅在拷贝数变异位点reads数，与统计量设计时考虑变异reads数和相邻变异位点间关联性存在不一致性，本发明针对这个问题，考虑变异reads数与变异位点间关联性的综合作用，建立新模型，解决不一致性问题，以客观估计拷贝数变异的显著性水平。

在检测多样本cCNV时，本发明整合多个样本，减少了基于单样本检测方法依次检测所产生的系统误差或测序平台错误，大大提高了检测效力。

在前期归一化(标准化)处理数据时，本发明针对不同的测序水平数据采用不同的处理方法，与现有技术在低覆盖水平数据检测不敏感相比，本发明不论测序覆盖水平高低都具有更高的灵敏度，这对于后续提高检测拷贝数变异的精确度奠定了基础。

检测多样本共同区域的拷贝数变异，除了要考虑多个样本发生拷贝数变异的区域呈现出相同的扩增或缺失信号，相邻位点间的相关联性对拷贝数变异的检测也具有重要的生物意义。因此，基于构造这两方面的特征的统计量及统计检验模型有利于更加客观地估计共同区域的拷贝数变异的显著性水平；而现有技术往往仅强调拷贝数变异区域的幅度，而忽略位点间的相关性；为此，本发明综合考虑这两种特征，建立统计检验模型，并通过有监督学习策略权衡这两个特征以合理地计算统计量，这不仅使得假设检验模型与统计量具有一致性，而且能够增强显著性水平估计的统计和生物双重意义。

本发明在数据处理时针对不同覆盖水平的数据采取不同的标准化处理方法，尤其是对高覆盖深度数据，根据其数据频率直方图特点先定义出拷贝数扩增与缺失状态，分离出仅正常(0)—扩增(1)数据集和正常(0)—缺失(-1)数据集；本发明在设计统计量时是以单个位点为检测基元，而在量化统计量时综合了CNV单个位点的reads数和位点间关联性的信息，能够从根本上提高显著性水平估计的准确度；本发明整合多个样本，通过有监督学习方法对全基因组位点的reads数(幅度)和位点间的相关性两方面的特征进行权衡，以合理量化统计量，并构造与统计量具有一致性的假设检验模型，从而提高显著性水平估计的统计意义。

给定仿真数据：包含18个共同发生的拷贝数变异(cCNV)的5个样本，本发明能够检测出17个cCNV区域，而现有技术如FREEC通过单个样本检测并综合比对仅能检测出15个cCNV区域。同时大量实验表明：与FREEC相比，本发明在边界检出时缩小了变异区域令更准确。

附图说明

图1是本发明实施例提供的基于新一代测序的拷贝数变异检测方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作进一步描述。

一种基于新一代测序的拷贝数变异检测方法，该基于新一代测序的拷贝数变异检测方法包括以下步骤：

S101：拷贝数变异数据的预处理：过滤掉CNV信号的Batch效应及比对过程中比对质量相对很低的reads；通过标准化GC含量，调整数据样本位点对应的reads数；对多个样本的测序水平归一化处理成对应同一测序水平的数据；对于覆盖深度低的数据样本，直接将数据归一化成同一水平；对于覆盖深度高的数据样本，根据其数据频率直方图特点先定义出拷贝数扩增与缺失状态；

S102：滑动窗口的构造：综合标准化处理后的多个样本，得一个高维矩阵；拟构造滑动窗口从起始位置计算位点的频数同时利用Pearson公式计算每个窗口内位点间的相关性，逐渐滑动窗口，直至遍及每个位点；计算位点间的相关性

S103：统计量的计算：计算每个滑动窗口的统计量反映拷贝数变异的扩增或缺失状态，利用已知的拷贝数变异功能模式构造训练集，学习频数和相关系数的权重，w₁和w₂，以计算统计量，

S_test＝w₁*f+w₂*a

S104：置换策略的实施与零分布的构造：对标准化后的多个样本计算全基因组上各个位点对应的检测统计量，构造零分布T，然后对样本数据实施随机置换，对每一样本，随机置换其在全基因组中出现的位置，直至s个样本均被置换，构成一个全置换样本集；对每个置换样本集，计算随机拷贝数变异发生的统计量；最后计算检测统计量的显著性水平：

p-value表示样本各位点对应的p-value值，K为随机置换的次数T为零分布时的统计量，为第i次的统计量，若大于T，则计数加一，最后即得p值。(其中p-value，T均为向量)

S105：基于CNV显著性水平的估计：由得到的样本所有位点对应的p值评价CNV发生的区域，若p值小于某设定的阈值(如0.05)，则我们认为该CNV具有生物意义或癌症功能。对每个CNV结构单元，分别建立扩增和缺失状态的零分布，以分别检测扩增和缺失状态的显著性水平。

S106：算法的性能评估：判断算法能否在错误肯定率(FPR)可控的情况下，获得较高的正确肯定率(TPR)；评价算法是否能够较准确地估计p值(Type I Error Rate)；拷贝数变异的边界检出能力；分析算法的计算复杂度。

所述过滤掉CNV信号的Batch效应及比对过程中比对质量相对很低的reads中reads<Q30。

所述综合标准化处理后的多个样本，得到一个高维矩阵中高维矩阵为样本个数s*样本的位点数N，所述以一段区域呈现的拷贝数变异邻近拷贝数变异位点间的关联性比较强，高达0.985，距离较远的位点间关联性比较弱。

所述针对每个滑动窗口，计算其统计量以反映拷贝数变异的扩增或缺失状态，对于低覆盖度样本，直接计算每个位点对应的reads数频数和该位点与窗内其他位点间的相关系数，综合它的频数和相关系数来量化其统计量(S)；对于高覆盖深度的样本，利用频率直方图巧妙精确地将拷贝数的扩增和缺失这两种有不同的生物功能表现的状态区分开，分别计算这两种状态的统计量(S)。

所述统计量的计算中S_test在训练集中拟通过公共数据库中已知的拷贝数变异功能模式与基因表达水平的关系对其赋予相对值。

所述对标准化后的多个样本计算全基因组上各个位点对应的检测统计量，构造零分布T，然后对样本数据实施随机置换中样本数据为数据矩阵中的每一行代表一个样本，每一列代表全基因组上的一个位点。

所述基于CNV显著性水平的估计中若p值小于设定的0.05阈值，该CNV具有生物意义或癌症功能，所述CNV的扩增和缺失状态具有不同的生物功能及表现。

所述算法的性能评估中评价算法是否能够较准确地估计p值，即算法的统计模型是否具有较强的统计意义。

下面结合应用原理对本发明作进一步描述。

在拷贝数生物特性及统计理论充分研究的基础上，建立统计检验模型，设计CNV显著性水平检测算法，利用大量仿真数据反复测试算法，对其性能从多角度进行分析与评价。

(1)拷贝数变异数据的预处理

对拷贝数变异样本数据进行适当的预处理对拷贝数变异显著性检测有重要的意义。a)针对CNV信号的Batch效应及比对过程中的质量问题，过滤掉比对质量相对很低的reads(<Q30)。b)由于新一代测序技术测得数据，其测序覆盖度受GC含量的影响，从而影响拷贝数变异检测。因此，我们需要通过标准化GC含量，来调整数据样本位点对应的reads数。c)由于多个样本的测序水平可能存在高低不同，不能直接进行后续的统计量计算，必须归一化处理成对应同一测序水平的数据才具有意义。对于覆盖深度低的数据样本，可直接将数据归一化成同一水平；对于覆盖深度高的数据样本，可根据其数据频率直方图特点先定义出拷贝数扩增与缺失状态。

(2)滑动窗口的构造

综合标准化处理后的多个样本，会得到一个高维矩阵(样本个数s*样本的位点数N)。由于拷贝数变异是以一段区域呈现的，通常邻近拷贝数变异位点间的关联性比较强，可高达0.985，而距离较远的位点间关联性比较弱甚至可以忽略。为了更准确计算位点间的相关性，拟构造滑动窗口从起始位置计算位点的频数同时利用Pearson公式来计算每个窗口内位点间的相关性，逐渐滑动窗口，直至遍及每个位点。其中滑动窗口的大小的选取对结果影响不大，这里我们暂取10，后续会通过实验观察其对影响效果。

(3)统计量的计算

针对每个滑动窗口，计算其统计量以反映拷贝数变异的扩增或缺失状态。由于新一代测序的数据受到测序覆盖深度的影响，对于低覆盖度和高覆盖度样本分别计算统计量，大大增强了本发明的适用性。对于低覆盖度样本，直接计算每个位点对应的reads数频数和该位点与窗内其他位点间的相关系数，综合它的频数和相关系数来量化其统计量(S)。对于高覆盖深度的样本，我们利用频率直方图巧妙精确地将拷贝数的扩增和缺失这两种有不同的生物功能表现的状态区分开，分别计算这两种状态的统计量(S)，有利于更好地检测拷贝数变异的显著性水平。这里的难点是如何合理权衡频数和相关系数，为此，我们利用已知的拷贝数变异功能模式构造训练集，学习频数和相关系数的权重，w₁和w₂，以计算统计量。

S_test＝w₁*f+w₂*a

其中，f，a，S_test分别指训练集中拷贝数变异功能模式的频数，相关性，及统计量的值。由于S_test在训练集中并没有明确给出，因此，拟通过公共数据库中已知的拷贝数变异功能模式与基因表达水平的关系对其赋予相对值。

(4)置换策略的实施与零分布的构造

对标准化后的多个样本计算全基因组上各个位点对应的检测统计量，构造零分布T。然后对样本数据(数据矩阵中的每一行代表一个样本，每一列代表全基因组上的一个位点)实施随机置换，具体过程如下：a)针对每一样本，随机置换其在全基因组中出现的位置，直至s个样本均被置换，构成一个全置换样本集；针对每个置换样本集，计算随机拷贝数变异发生的统计量；最后计算检测统计量的显著性水平：

(5)基于CNV长度的零分布设计与显著性水平的估计

由得到的样本所有位点对应的p值评价CNV发生的区域，若p值小于某设定的阈值(如0.05)，则我们认为该CNV具有生物意义或癌症功能。另外，考虑到CNV的扩增和缺失状态具有不同的生物功能及表现，我们针对每个CNV结构单元，分别建立扩增和缺失状态的零分布，以分别检测扩增和缺失状态的显著性水平。

(6)算法的性能评估

本发明拟从以下三个方面对算法的性能进行评价：a)判断算法能否在错误肯定率(FPR)可控的情况下，获得较高的正确肯定率(TPR)；b)评价算法是否能够较准确地估计p值(Type I Error Rate)，即算法的统计模型是否具有较强的统计意义；c)拷贝数变异的边界检出能力；d)分析算法的计算复杂度。

拟以1000Affymetrix全基因组SNP6.0芯片检测的正常细胞拷贝数为背景，考虑NGS技术和数据特点，以概率论和非稳定模型为基础，构建马尔可夫CNV仿真方法，模拟大规模的基于NGS的CNV数据，对本发明的方法性能进行测试。部分仿真实验得出，本算法在保持较高的TPR情况下，具有较高的边界检出能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于新一代测序的拷贝数变异检测方法，其特征在于，该基于新一代测序的拷贝数变异检测方法包括以下步骤：

拷贝数变异数据的预处理：过滤掉CNV信号的Batch效应及比对过程中比对质量低的reads；通过标准化GC含量，调整数据样本位点对应的reads数；对多个样本的测序水平归一化处理成对应同一测序水平的数据；对于覆盖深度低的数据样本，直接将数据归一化成同一水平；对于覆盖深度高的数据样本，根据其数据频率直方图特点先定义出拷贝数扩增与缺失状态；

统计量的计算：计算每个滑动窗口的统计量反映拷贝数变异的扩增或缺失状态，利用已知的拷贝数变异功能模式构造训练集，学习频数的权重w₁和相关系数的权重w₂，以计算统计量，

S_test＝w₁*f+w₂*a

p-value表示样本各位点对应的p-value值，K为随机置换的次数T为零分布时的统计量，T_i ^*为第i次的统计量，若T_i ^*大于T，则计数加一，最后即得p值；其中p-value，T_i ^*，T均为向量；

基于CNV显著性水平的估计：由得到的样本所有位点对应的p值评价CNV发生的区域，若p值小于某设定的阈值0.05，则我们认为该CNV具有生物意义；对每个CNV结构单元，分别建立扩增和缺失状态的零分布，以分别检测扩增和缺失状态的显著性水平；

算法的性能评估：判断算法能否在错误肯定率可控的情况下，获得正确肯定率；评价算法是否能够估计p值；拷贝数变异的边界检出能力；分析算法的计算复杂度。

2.如权利要求1所述的基于新一代测序的拷贝数变异检测方法，其特征在于，所述过滤掉CNV信号的Batch效应及比对过程中比对质量低的reads中reads<Q30。

3.如权利要求1所述的基于新一代测序的拷贝数变异检测方法，其特征在于，所述综合标准化处理后的多个样本，得到一个高维矩阵中高维矩阵为样本个数s*样本的位点数N。

4.如权利要求1所述的基于新一代测序的拷贝数变异检测方法，其特征在于，针对每个滑动窗口，计算其统计量以反映拷贝数变异的扩增或缺失状态，对于低覆盖度样本，直接计算每个位点对应的reads数频数和该位点与窗内其他位点间的相关系数，综合它的频数和相关系数来量化其统计量S；对于高覆盖深度的样本，利用频率直方图巧妙精确地将拷贝数的扩增和缺失这两种有不同的生物功能表现的状态区分开，分别计算这两种状态的统计量S。

5.如权利要求1所述的基于新一代测序的拷贝数变异检测方法，其特征在于，所述统计量的计算中S_test在训练集中拟通过公共数据库中已知的拷贝数变异功能模式与基因表达水平的关系对其赋予相对值。

6.如权利要求1所述的基于新一代测序的拷贝数变异检测方法，其特征在于，所述对标准化后的多个样本计算全基因组上各个位点对应的检测统计量，构造零分布T，然后对样本数据实施随机置换中样本数据为数据矩阵中的每一行代表一个样本，每一列代表全基因组上的一个位点。

7.如权利要求1所述的基于新一代测序的拷贝数变异检测方法，其特征在于，所述基于CNV长度的零分布设计与显著性水平的估计中若p值小于设定的0.05阈值，该CNV具有生物意义，所述CNV的扩增和缺失状态具有不同的生物功能及表现。