WO2023082305A1

WO2023082305A1 - 兼容双测序平台的建库元件、试剂盒及建库方法

Info

Publication number: WO2023082305A1
Application number: PCT/CN2021/131508
Authority: WO
Inventors: 汪彪; 胡玉刚; 吴强
Original assignee: Nanodigmbio Nanjing Biotechnology Co Ltd
Current assignee: Nanodigmbio Nanjing Biotechnology Co Ltd
Priority date: 2021-11-09
Filing date: 2021-11-18
Publication date: 2023-05-19
Anticipated expiration: 2024-05-09
Also published as: EP4202058A4; EP4202058A1; CN113999893A; CN113999893B; US20240279647A1

Abstract

一种兼容双测序平台的建库元件、试剂盒及建库方法。该建库方法包括：采用带有5'磷酸化修饰的引物或接头对目标样本进行文库构建，获得带有5'磷酸化修饰的线性的扩增文库，即为适用于Illumina测序平台的线性文库；或进一步将带有5'磷酸化修饰的线性的扩增文库进行环化，获得适用于MGI测序平台的环化文库。通过在Illumina全长型接头的5'端，或者文库扩增引物的5'端带上磷酸化修饰，便于在获得适合Illumina测序平台的线性文库的同时，只需直接利用5'端的磷酸化修饰进行环化即可获得适用于MGI测序平台的环化文库，从而解决了现有建库方法在两个平台上兼容性低的问题。

Description

兼容双测序平台的建库元件、试剂盒及建库方法

技术领域

本发明涉及高通量测序文库构建领域，具体而言，涉及一种兼容双测序平台的建库元件、试剂盒及建库方法。

背景技术

高通量测序是通过测定核酸序列的方式获得序列信息，目前主流的二代测序仪是Illumina、MGI和life的测序仪，其中Illumina占主流，其次是MGI测序仪，同时这两种测序仪测序原理相同，都是通过边合成边测序方式，通过对合成过程中的单核苷酸标记不同荧光信号的方式来实现对核酸序列的读取。而life的测序仪是通过合成过程中的电子信号释放实现检测的。

由于Illumina和MGI的测序依赖荧光标记的单核苷酸，随着技术的发展Illumina测序仪发展了三种荧光通道和相应的拍照模式：四色荧光四通道模式，三色荧光两通道模式和四色单通道模式。MGI测序仪也有四色荧光四通道模式和三色荧光两通道模式。所以这些测序模式由于都需要检测荧光信号，由于荧光信号相互之间会有重合，所以在检测时需要滤光片尽量避免相互之间的干扰，另一个解决办法就是在混测的时候尽量碱基均衡排机测序，同样道理，Index序列也需要考虑平衡问题。如果Index设计时考虑好了平衡问题，就不用在安排各种通道时费劲心思考虑上机问题。

同时由于Illumina的上机方式时线性扩增的方式进行上机测序，MGI的上机方式是环化后的上机测序，这样如果想把Illumina的文库上机，还需要单独流程处理后才能环化，目前的处理方式是通过PCR扩增的方式处理，虽然这种方式可以解决Illumina文库在MGI测序平台的上机问题，但是增加了操作流程和增加了测序数据的冗余度。

因此，目前市场上出现了需要提供一种简便有效的能够兼容两种测序平台的建库方案的需求。

发明内容

本发明的主要目的在于提供一种兼容双测序平台的建库元件、试剂盒及建库方法，以解决现有技术中的建库方案在两种测序平台上兼容性低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种兼容双测序平台的建库方法，该建库方法包括：采用带有5’磷酸化修饰的引物或接头对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库，5’磷酸化修饰的线性的扩增文库即为适用于Illumin测序平台的线性文库；或者进一步将带有5’磷酸化修饰的线性的扩增文库进行环化，获得适用于MGI测序平台的环化文库；其中，5’磷酸化修饰的引物包括P5截断型扩增引物SEQ ID NO：1和 P7截断型扩增引物SEQ ID NO：2；5’磷酸化修饰的接头包括P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4；其中，SEQ ID NO：1：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACA CGAC，10个N代表P5端index序列；SEQ ID NO：2CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；SEQ ID NO：3：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，10个N代表P5端index序列，*代表硫代修饰；SEQ ID NO：4：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；其中，包括P5端index序列或P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。

进一步地，P5端index序列选自表1-1中任意一种，P7端index序列选自表1-2中任意一种。

进一步地，目标样本为多个，多个目标样本对应的P5端index序列选自表1-1中任意一组4碱基平衡的标签序列，多个目标样本对应的P7端index序列选自表1-2中任意一组4碱基平衡的标签序列，4碱基平衡的标签序列是指4个一组的标签序列平衡，即在标签序列的第1位到第10位的每个位置上，碱基A、T、G和C各有一个。

进一步地，采用带有5’磷酸化修饰的引物对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库包括：采用SEQ ID NO：7和SEQ ID NO：8所示的截断型接头对来源于目标样本的片段进行接头连接，得到带接头片段；采用SEQ ID NO：1和SEQ ID NO：2所示的5’磷酸化修饰的引物对带接头片段进行扩增，得到带有5’磷酸化修饰的线性的扩增文库；其中，SEQ ID NO：7：ACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰；SEQ ID NO：8：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。

进一步地，采用5’磷酸化修饰的接头对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库包括：采用SEQ ID NO：3和SEQ ID NO：4所示的全长型接头对来源于目标样本的片段进行接头连接，得到带接头文库；采用SEQ ID NO：5及SEQ ID NO：6所示的文库扩增引物对带接头文库进行扩增，得到5’磷酸化修饰的线性的扩增文库；其中，SEQ ID NO：5：/5Phos/AATGATACGGCGACCACCGAGAT；SEQ ID NO：6：CAAGCAGAAGACGGCATACGA。

进一步地，在进行环化之前，建库方法还包括对线性的扩增文库进行靶向捕获的步骤；优选地，采用5’磷酸化修饰的文库扩增引物对靶向捕获后的捕获文库进行扩增，得到线性扩增捕获文库，对线性扩增捕获文库进行环化，得到适用于MGI测序平台的环化文库；优选地，5’磷酸化修饰的文库扩增引物包括SEQ ID NO：5所示的P5磷酸化引物，以及SEQ ID NO：6所示的P7引物。

根据本申请的第二个方面，提供了一种兼容双测序平台的建库试剂盒，该建库试剂盒包括如下组合中的任意一种：1)组合1：P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2，其中，SEQ ID NO：1：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；SEQ ID NO：2CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；2)组合2：P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4，其中，SEQ ID NO：3：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，10个N代表P5端index序列，*代表硫代修饰，SEQ ID NO：4：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；其中，包括P5端index序列或P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。

进一步地，建库试剂盒包括412条P5端index序列和432条P7端index序列，P5端index序列如表1-1所示，P7端index序列如表1-2所示，其中，P5端index序列和/或P7端index序列均按一组4碱基平衡的标签序列的方式配合使用。

进一步地，建库试剂盒还包括SEQ ID NO：5和SEQ ID NO：6所示的文库扩增引物，和/或者SEQ ID NO：7和8所示的截断型接头。

根据本申请的第三个方面，提供了一种兼容双测序平台的建库元件，该建库元件选自如下组合中的任意一种：1)组合1：P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2，其中，SEQ ID NO：1：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；SEQ ID NO：2CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；2)组合2：P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4，其中，SEQ ID NO：3：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，10个N代表P5端index序列，*代表硫代修饰，SEQ ID NO：4：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；其中，包括P5端index序列或P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。

进一步地，建库元件为扩增引物组合物或者接头组合物，扩增引物组合物包括多组P5截断型扩增引物和/或多组P7截断型扩增引物的组合，每组P5截断型扩增引物包含选自表1-1中的任意一组4碱基平衡的标签序列，每组P7截断型扩增引物包含选自表1-2中的任意一组 4碱基平衡的标签序列；接头组合物包括多组P5全长型接头和/或多种P7全长型接头，每组P5全长型接头包含选自表1-1中的任意一组4碱基平衡的标签序列，每组P7全长型接头包含选自表1-2中的任意一组4碱基平衡的标签序列；4碱基平衡的标签序列是指4个一组的标签序列平衡，即在标签序列的第1位到第10位的每个位置上，碱基A、T、G和C各有一个。

应用本发明的技术方案，通过在illumina全长型接头(P5和P7)的5’端，或者文库扩增引物的5’端带上磷酸化修饰，便于在获得适合Illumina测序平台的线性文库的同时，如果需要用到MGI测序平台，只需直接利用5’端的磷酸化修饰进行环化即可获得适用于MGI测序平台的环化文库。从而解决了现有建库方法在两个平台上兼容性低的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出的是Illumina文库通过转化可以在MGI测序平台的上机方式；

图2示出的是一个文库可以双平台上机方式的兼容建库方案；

图3示出的是靶向捕获后扩增的兼容上机扩增方案；

图4示出的是在index区域序列碱基缺失的比例

图5示出的是双测序平台兼容的index在设计时要考虑的方向和末端碱基的因素；

图6示出的是P5端接头设计index时应该考虑的10个碱基还要考虑前后的C和A碱基因素；

图7示出的是P7端接头设计index时应该考虑的10个碱基还要考虑前后的T和G碱基因素；

图8示出的是Illumian专利里面P5端接头设计index时末端A时，3个编辑距离变为2个编辑距离index；

图9示出的是Illumian现在用的IDT版8bp的index也是有很多只有两个编辑距离；

图10示出的是不同测序仪对双色和四平衡index平衡在上机是差异很大；

图11示出的是IDT的版的产品并没有考虑平衡的规律；

图12示出的是两种兼容方案和Illumina单独方案的建库产出对比；

图13示出的是本发明方案一的96组文库扩增引物文库产出；

图14示出的是双平台兼容的96组文库在双平台上测序数据拆分；

图15示出的是四index平衡在1-12种组合的最低和最高碱基占比；

图16示出的是本发明和Illumina推荐的IDT版8组和12组混合包芯片上机的数据拆分对比。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

双端标签接头：高通量测序时需要每个片段末端连接通用的测序接头，接头的不互补区域各有一个可变序列区域序列是标签序列，是用来测序时拆分数据用。

四碱基平衡的标签序列：DNA序列有四种碱基组成，即A、T、G和C为了测序过程中的有效读取，组合出一组标签序列保证标签序列的每个位置碱基占比相等。

兼容双测序平台：指建库接头或扩增引物既考虑了Illumina测序平台上机，也考虑了MGI测序平台的上机测序。

高通量测序(NGS)是比较重要的且应用非常广泛的大规模平行测序技术，目前大规模平行测序(Massively Parallel Sequencing，下文简称“MPS”)技术的提供厂商包括因美纳(Illumina)、华大智造(MGI)和Ion Torrent三家，其中，市场上应用较多的是Illumina和MGI测序仪。很多公司和大型研究机构都配制有这两种测序仪，这两种测序仪有相同的测序原理和测序质量。因此，如果有一个共同的建库方案能够在两种测序平台上进行无差别的上机测序，这样便能够减少很多麻烦，更方便相关人员使用。

申请人已经开发了MGI测序平台的单端和双端index的建库解决方案，也有Illumina的建库解决方案。目前的Illumina建库方案只能在Illumina测序平台上上机，如果在MGI测序仪上机需要通过MGI的App-a(目前是Illumina文库可以上机的一种方式，即App-a的转化方案，具体通过3-5轮PCR扩增进行末端磷酸化，如图1所示)的转化，同时由于这个index的设计没有考虑四个index的碱基平衡问题，在上机测序排机有难度。而且，对于既有Illumina的测序仪，也有MGI的测序仪的用户来说，分别用两套建库方案和后期的全套杂交捕获方案也很麻烦。尽管目前MGI公司提供一种如图1所示的转化方案，在建好的Illumina文库基础上进行转化扩增操作，但是这种方案的主要在流程方面有两个问题：(1)增加操作流程，需要建好的文库再增加一个转化过程，浪费时间、人力和物力成本；(2)由于增加了一个转化过程中的扩增(3-5个循环)，人为的带来测序过程中的冗余度(Duplications)。本来MGI测序平台的冗余度是比Illumina测序平台低，在MGISEQ-2000测序平台上，按照150×的测序深度测序的话，全外显子的冗余度能够控制在2％左右。在Illumina测序平台NovaSeq 6000有20％的平台自带的冗余度。所以，经过MGI的转化方案，把MGI测序平台本身冗余度低的优势丧失掉了。

此外，如图10所示，由于MGI测序平台和Illumina测序平台都有二色通道和四色通道测序的机器，但在Illumina平台开发的文库和现有公开的针对Illumina平台的专利，都未重视四色通道的碱基平衡，这对准确读取index序列非常不利。

为此，本申请充分考虑了二色和四色通道的问题，对index的设计进行四个index一组的四种碱基的绝对平衡问题，使得本申请的建库接头在Illumina和MGI两种测序平台上都能在保证index测序质量的同时，也有利于操作者容易安排上机测序。

本申请的方案之一：通过截断型的接头连接建库，通过双端index进行扩增带上双端index序列。此方案不同于以往的Illumina平台的建库方案之处在于p5端index的引物的5’端进行了磷酸化修饰，这样保证在不影响扩增的同时能够带上后期用于MGI测序平台的文库构建中环化时的磷酸化，如图2所示左半边所示。这样建成的文库既可以在Illumina测序平台上直接上机，也可以直接环化后在MGI测序平台上上机。

本发明方案之二：建库的接头是全长Y型接头，Y型接头的p5端5’端有磷酸化修饰，这样设计的好处可以做PCR-free建库直接在Illumina测序平台上机测序，也可以直接环化在在MGI测序平台上机上机测序。同时全长型的接头也可以用带磷酸化修饰的p5和p7引物扩增直接在Illumina平台上测序，或者直接环化在MGI测序平台上上机测序。

在上述文库构建的基础上，本申请的方案可以进一步延伸应用到靶向捕获测序的场景中。经过靶向捕获后的文库扩增是用带磷酸化的p5和p7扩增，磷酸化修饰只修饰p5端引物(由于测序是有方向的，MGI平台环化只环化一条链，因此仅环化P5端5’磷酸化的那条链)，如图3所示，这样保证捕获后扩增的文库既可以在Illumina上测序，也可以直接环化后在MGI测序平台上测序。

需要说明的是，本申请中所提及的P5/P7，或者P5端/P7端，均是指illumina测序平台的P5和P7通用序列。本申请在实际测序过程中发现index部分合成质量是有碱基缺失现象，进而推测引物或接头合成的过程中是存在一定概率和一定的比例的碱基缺失的。如图4所示，通过分析对index部分进行测序的数据，我们发现在IDT合成的脱盐和经HPLC纯化的序列中，有大概0.2％-2.8％的单碱基缺失存在，缺失经过HPLC纯化可以改善，但是不能根本性消除。同时考虑到在测序的过程中由于index缺失会把后一个碱基递进上来被测序，所以在优化index序列时，index之后的第一个碱基也要考虑，如图5所示，由于Illumina和MGI的所有测序方向都考虑到，因此，在P5端index和P7端的index的前后方向的第一个碱基都需要考虑到。

如图6所示，P5端的index序列，对于Illumina测序平台不同型号的测序仪来说，正向和方向测序的都有，而对于MGI平台的测序仪来说，是反向测序的，因此，P5端要考虑index前端的C碱基(即正向测序的index的后一位碱基)和后端的A碱基(即反向测序的index的后一位碱基)。同样的，如图7所示，P7端的index序列在Illumina测序平台是反向测index序列，需要考虑前端的碱基T，MGI平台读取index的方向是正向，需要考虑的是后端的碱基G。由于需要考虑缺失补位和测序错误导致的不同index之前的差异变化，而这一问题在之前已发表的文章和公开的专利文献中均未提及。

比如，Illumina的专利PCT/US2018059255中，符合三个编辑距离的一些index就会变为只有两个编辑距离，如图8所示(图8中的编辑距离表示两个相同长度字对应位不同的数量，以d(x,y)表示两个字x和y之间的编辑距离，对两个字符串进行异或运算，并统计结果为1的个数，这个个数就是编辑距离，距离越小，表面相似度越高)在只考虑P5端的一个末尾A碱基时在64个8bp的序列里面就有12个index的编辑距离由三个变为两个。如果再考虑另一个方向，则会有更多的index序列不符合3个编辑距离的规则。在设计index时要保证至少有三个编辑距离，才能保证在分析时能够在一个错误存在时，依靠另外两个的差异仍能找到正确的数据拆分结果。如果只有两个编辑距离，那任何环节错一个，就无法正确拆分出数据。

同样地，现有文章发表的双端index(比如，PMID:23793624)，10bp的index计算出有7198种有3个编辑距离的index序列。我们考虑到10bp的序列同时再加上接头的靠近index的首尾碱基，只有1000多种index具有严格的3个编辑距离，并且还要考虑到四个一组，分别考虑P5和P7端index上下游碱基，适合的各有412种和432种，见表1-1和表1-2。

同样道理8bp的index具备3个编辑距离的index序列也会相应的减少，比如现在Illumina测序平台官方推荐的IDT设计的8bp的384种index序列也具有同样的问题。如图9所示，IDT版的P5端index 4(即UDP0004)经过一个碱基的突变就会变为中间的那条序列，index 3(即UDP0003)的序列只要第一个G碱基缺失，在测序时后一个A就自然递进到前面变为中间的序列。所以将index前后各一个碱基与碱基缺失或突变考虑在一起来进行index的设计，在以前发表的文章和目前已公开的专利上并未提及，且现有公开的index序列并不具备严格的3个编辑距离。因此，为了能够筛选出足够多的具有严格的3个编辑距离的序列，本申请中选择的是10bp的长度的双端index序列。

本申请还发现：在上机时由于Illumina平台和MGI测序平台都有2色通道和4色通道的测序仪，为了保证index的测序质量，除了要考虑index的前后碱基的序列信息外，还需要考虑index之间的碱基平衡问题。在Illumina的产品和专利上的index序列都没有考虑这个问题。如图10所示，我们在考虑是选择双色平衡(即两通道)还是4个index的绝对平衡(即4通道)会更有利于双测序平台的上机测序时，为了能够在Illumina和MGI两种平台的2色通道和4色通道的测序仪上都有好的测序数据质量表现，本发明选择了4个一组的index的4种碱基的绝对平衡。

在已申请的专利和已售卖的产品中可以看出，Illumina测序平台在这方面都没有仔细考虑，这也导致在Illumina测序平台上机排机时，需要慎重考虑各种index之间的组合。如图11所示，Illumina测序平台推荐的IDT版的P5端1-12index序列和4组，8组和12组index碱基统计，在8个一组还有缺失的碱基，12个一组的最低碱基比例是8.3％(比如，第7位的C碱基和第8位的A碱基)，这个比例远低于MGI测序仪要求的不低于12.5％的要求。而本申请的4组index碱基绝对平衡的设计，在大于等于四种样本等量连续的index上机时最低碱基比例都是大于14.28％的，因而能够满足两种测序平台的各种机型的要求，这样的Index设计既能方便上机安排，又能提高和保证数据质量。

需要说明的是，本申请的核心改进点有如下特征：

1.截断p5端带index的扩增引物的5’端带磷酸化修饰(见SEQ ID NO：1)、全长接头的p5序列5’端带磷酸化修饰(见SEQ ID NO：3)和不带index的截断p5端引物的5’端带磷酸化修饰(见SEQ ID NO：5)；

2.在设计双端index时，除了考虑index序列本身的差异，还考虑了由于合成缺失，测序错误导致index前后各一个碱基的递进导致的编辑距离减少，因而是考虑了满足严格3个编辑距离的设计要求。P5端的index考虑是10个index序列和其前后的C和A碱基(即C-10碱基index-A)；P7端的index考虑是10个index序列和其前后的T和G碱基(T-10碱基index-G)

3.考虑在双测序平台上的各种机型上机的方便，本发明在考虑前两点的基础设计了严格4个index序列10个碱基位置上的严格平衡。

本发明在Illumina的基础上做了如果下改进：

P5截断型扩增引物SEQ ID NO：1：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，其中，10个N代表index序列，具体可以是表1-1中的任一条序列；

P7截断型扩增引物SEQ ID NO：2：

CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，其中，10个N代表index序列，具体可以是表1-2的中的任一条序列。

P5全长型接头SEQ ID NO：3：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，其中，*代表硫代修饰，10个N代表index序列，具体可以是表1-1中的任一条序列；

P7全长型接头SEQ ID NO：4：

/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，其中，10个N代表index序列，具体可以是表1-2的中的任一条序列。

P5磷酸化扩增引物SEQ ID NO：5：/5Phos/AATGATACGGCGACCACCGAGAT，与原Illumina平台仅有磷酸化的区别；

P7扩增引物与Illumina原版相同，这里不做特殊说明。此外，截断接头也和Illumina原方案没有区别。

以下基于Illumina测序平台接头序列优化的10bp的4平衡index序列：

经过严格的3个编辑距离的筛选和4个index的平衡性，p5端10bp长度一共筛选到412条序列，序列如表1-1所示；p7端10bp长度一共筛选到432条序列，序列如表1-2所示。

表1-1.P5端index序列

表1-2.P7端index序列

综上所述，本申请是提供了一种通用的建库解决方案，此方案在Illumina和MGI双平台上各机型都能上机测序，设计时已经考虑最小单位组合的index的4碱基平衡问题，和严格的index之间无论正向测序还是反向测序都能够保证3个编辑距离。

上述改进有两方面的有益效果：第一，可以是更好的适应Illumina各型号测序仪，真正做到每个index之间有3个编辑距离的差异。第二，这些改进可以直接环化后在MGI测序仪上测序。

基于上述研究结果，申请人提出了本申请所保护的技术方案。提供了一种兼容双测序平台的建库方法，该建库方法包括：采用带有5’磷酸化修饰的引物或接头对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库，5’磷酸化修饰的线性的扩增文库即为适用于Illumin测序平台的线性文库；或者进一步将带有5’磷酸化修饰的线性的扩增文库进行环化，获得适用于MGI测序平台的环化文库；其中，5’磷酸化修饰的引物包括P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2；5’磷酸化修饰的接头包括P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4；其中，SEQ ID NO：1：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACA CGAC，10个N代表P5端index序列；SEQ ID NO：2CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；SEQ ID NO：3：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰，10个N代表P5端index序列，SEQ ID NO：4：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；其中，包括P5端index序列或P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。

上述改进方案，通过带有5’磷酸化修饰的引物或接头构建而成的线性文库，一方面可以直接在Illumina平台上上机测序，由于该线性文库本身带有5’磷酸化，因而可以直接进行环化制备成适合MGI平台上机测序的文库。该方法建库简便，且兼容双测序平台。

为进一步提高测序碱基的质量和混样测序时，数据拆分的准确性，在一种优选的实施例中，P5端index序列选自表1-1中任意一种，P7端index序列选自表1-2中任意一种。由于表1-1和表1-2中的index序列充分考虑了序列合成时可能的错误或缺失等问题，提供了至少3个编辑距离，因而能够在合成碱基缺失时仍能正确拆分混样的测序数据。

在另一优选的实施例中，目标样本为多个，多个目标样本对应的P5端index序列选自表1-1中任意一组4碱基平衡的标签序列，多个目标样本对应的P7端index序列选自表1-2中任意一组4碱基平衡的标签序列，4碱基平衡的标签序列是指4个一组的标签序列平衡，即在标签序列的第1位到第10位的每个位置上，碱基A、T、G和C各有一个。当多个目标样本进行混样测序时，考虑到不同样本同一位置上(比如，都是第3位上的)index碱基读取的准确性，采用本申请表1-1和1-2优选的4个一组的标签序列，能够保持4种碱基类型的数量均等，实现4种碱基保持平衡，进而保证了每条序列同一位置上的碱基读取的准确性，从而提高文库正确拆分的比率。

根据上述带有5’磷酸化修饰的是截断型引物还是全长型接头，建库的具体流程稍有不同。在一种优选的实施例中，采用带有5’磷酸化修饰的引物对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库包括：采用SEQ ID NO：7和SEQ ID NO：8所示的截断型接头对来源于目标样本的片段进行接头连接，得到带接头片段；采用SEQ ID NO：1和SEQ ID NO：2所示的5’磷酸化修饰的引物对带接头片段进行扩增，得到带有5’磷酸化修饰的线性的扩增文库；其中，SEQ ID NO：7：ACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰，；SEQ ID NO：8：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。

在另一种优选的实施例中，采用5’磷酸化修饰的接头对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库包括：采用SEQ ID NO：3和SEQ ID NO：4所示的全长型接头对来源于目标样本的片段进行接头连接，得到带接头文库；采用SEQ ID NO：5及SEQ ID NO：6所示的文库扩增引物对带接头文库进行扩增，得到5’磷酸化修饰的线性的扩增文库；其中，SEQ ID NO：5：/5Phos/AATGATACGGCGACCACCGAGAT；SEQ ID NO：6：CAAGCAGAAGACGGCATACGA。

上述两种方式线性文库的构建步骤，也同样适用于捕获文库的构建中。即上述步骤后，可以进一步通过靶向捕获，获得捕获文库，进而采用5’磷酸化修饰的文库扩增引物进行文库扩增，即可获得线性的捕获文库，适用于Illumina平台上机测序。

而对于MGI平台的捕获文库来说，可以在进行环化之前，对线性的扩增文库进行靶向捕获来实现。在一种优选的实施例中，采用5’磷酸化修饰的文库扩增引物对靶向捕获后的捕获文库进行扩增，得到线性扩增捕获文库，对线性扩增捕获文库进行环化，得到适用于MGI测序平台的环化文库；优选地，5’磷酸化修饰的文库扩增引物包括SEQ ID NO：5所示的P5磷酸化引物，以及SEQ ID NO：6所示的P7引物。

根据本申请的第二个方面，提供了一种兼容双测序平台的建库试剂盒，该建库试剂盒包括如下组合中的任意一种：1)组合1：P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2，其中，SEQ ID NO：1：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；SEQ ID NO：2CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；2)组合2：P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4，其中，SEQ ID NO：3：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰，10个N代表P5端index序列，SEQ ID NO：4：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；其中，包括P5端index序列或P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。

根据本申请的第三个方面，提供了一种兼容双测序平台的建库元件，该建库元件选自如下组合中的任意一种：1)组合1：P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2，其中，SEQ ID NO：1：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；SEQ ID NO：2CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；2)组合2：P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4，其中，SEQ ID NO：3：/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰，10个N代表P5端index序列，SEQ ID NO：4： /5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；其中，包括P5端index序列或P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。

进一步地，建库元件为扩增引物组合物或者接头组合物，扩增引物组合物包括多组P5截断型扩增引物和/或多组P7截断型扩增引物的组合，每组P5截断型扩增引物包含选自表1-1中的任意一组4碱基平衡的标签序列，每组P7截断型扩增引物包含选自表1-2中的任意一组4碱基平衡的标签序列；接头组合物包括多组P5全长型接头和/或多种P7全长型接头，每组P5全长型接头包含选自表1-1中的任意一组4碱基平衡的标签序列，每组P7全长型接头包含选自表1-2中的任意一组4碱基平衡的标签序列；4碱基平衡的标签序列是指4个一组的标签序列平衡，即在标签序列的第1位到第10位的每个位置上，碱基A、T、G和C各有一个。

下面将结合具体的实施例来进一步说明本申请的有益效果。

需要说明的是，以下实施例采用NadPrep ^TM DNA文库构建试剂盒(for Illumina)使用说明书V3.4(纳昂达(南京)生物科技有限公司)所提供的文库构建流程进行。具体流程简述如下：

DNA样本片段化---末端修复和加A---接头连接---片段筛选---PCR扩增---文库纯化、定量和质检---使用Illumina/MGI平台测序或靶向捕获后测序。

还需要说明的是，以下实施例仅是示例性说明，并不限定本申请的方法仅能采用如下方法。

实施例1本发明的建库方案一与方案二方案与现有技术中单独Illumia平台建库比较

步骤：

建库步骤参考NadPrep ^TM DNA文库构建试剂盒(for Illumina)(202105Version3.4)说明书，唯一的不同之处在于接头和扩增引物的差异，具体如下：

(1)本发明方案一：

截断型接头序列(截断型接头序列与Illumina单平台测序的接头序列一致，均为如下序列SEQ ID NO：7和SEQ ID NO：8)：

ACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰，(SEQ ID NO：7)

/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(SEQ ID NO：8)

截断型扩增引物为上述SEQ ID NO：1和SEQ ID NO：2，其中SEQ ID NO：1的index序列为表1-1中的P5-001至P5-096，SEQ ID NO：2的index序列为表1-2中的P7-001至P7-096。

方案一的特点是：

1)截断型P5引物进行了磷酸化修饰，目的是兼容MGI测序平台。

2)中间index进行了优化，考虑合成缺失可能的碱基递进和兼容平台因素的3个编辑距离。

3)绝对的4个index的10个碱基位置的平衡，有利于在双色和四色的测序平台安排上机。

(2)本发明方案二：

全长型接头序列：SEQ ID NO：3+SEQ ID NO：4，其中SEQ ID NO：4的index序列为表1-1中的P5-001至P5-096，SEQ ID NO：4的index序列为表1-2中的P7-001至P7-096。

P5磷酸化扩增引物为SEQ ID NO：5：/5Phos/AATGATACGGCGACCACCGAGAT；

P7引物为SEQ ID NO：6：CAAGCAGAAGACGGCATACGA。

方案二的特点是：

1)全长型P5接头5’端进行了磷酸化修饰，后续扩增的引物P5端进行了5’磷酸化修饰，目的是兼容MGI测序平台；

2)全长型建库，可以进行PCR-free建库；

3)中间index进行了优化，考虑合成缺失可能的碱基递进和兼容平台因素的3个编辑距离。

4)绝对的4个index的10个碱基位置的平衡，有利于在双色和四色的测序平台安排上机。

(3)对照方案

对照方案就是用目前纳昂达对Illumina平台推出的产品配合IDT的384种UDI接头建库，扩增用普通的P5和P7引物，具体流程参考NadPrep ^TM DNA文库构建试剂盒(for Illumina)(202105Version3.4)说明书。

表2：三种建库方案产出比较

方案	DNA投入量	扩增循环数
方案一	50ng	6
方案二	50ng	7
对照	50ng	7

本发明方案一和方案二与对照在Illumina平台上测序的文库建库产出如图12所示，本发明方案一在同样是50ng的投入量，只需要6个循环即可以达到方案二和对照的7个循环产出，在具体应用时，截断型方案一在建库产出和兼容性方面更有优势。此处的兼容性是指可以兼容通用截断型接头、血浆应用的分子标签接头、截断型甲基化分子标签接头和扩增子建库。本发明方案二的好处是可以做PCR-free建库，方案二的产出与对照建库方法的产出的文库相当。

实施例2本发明方案同一个文库可以在双平台上上机测序

步骤：

建库步骤参考NadPrep ^TM DNA文库构建试剂盒(for Illumina)(202105Version3.4)说明书，建库的方案接头方案按本发明方案一进行，超声打断后的100ng DNA标准品(Promage公司)起始建库。用本发明方案一的截断接头和SEQ ID NO：1和SEQ ID NO：2扩增引物进行扩增，P5端index编号的表1-1的前96种和P7端index标号的表1-2的前96种进行对应组合，比如，可以是P5-001和P7-001组合，P5-002和P7-002组合，依次类推，直至P5-096和P7-096组合。但需要说明的是，此处的组合并非是唯一限定的组合方式，四个一组的任意组合均可以进行混合上机测序(比如，可以是P5-001至P5-004与P7-001至P7-004中任意的P5与P7的组合，与另外四个，比如P5-097至P5-100与P7-097至P7-100中的任意的P5与P7的组合，依次类推)。

扩增循环数是5个循环，文库产出如图13所示，所有的文库产出都在均值的上下80％至120％之间，说明本发明方案一的扩增效率比较均衡。

同时把这96组引物构建的文库分别在Illumina和MGI测序平台上进行等比混合的全基因组(WGS)上机测序，测序的数据进行数据拆分，拆分后的数据进行均一化处理，每个文库的测序数据除以所有数据的均值，最终的结果如图14所示，产出的数在75％和125％之间，说明本发明方案在两个平台上均有一致的表现。可以用一套兼容的建库方案解决在两个平台的上机问题。

实施例3四组index平衡在排机的意义和有效拆分

步骤：

建库步骤参考NadPrep ^TM DNA文库构建试剂盒(for Illumina)(202105Version3.4)说明书，分别用本发明的8组、12组引物建库上机测序和8组、12组Illumina平台的官方推荐的IDT版本的建库在Hiseq X Ten单独包芯片通道(lane)上机分析拆分情况。

如图15所示的是本发明的四组index平衡1-12组排机上机的最高和最低碱基占比，本发明四平衡在大于4个及以上的组合中，最低值是14.3％，大于MGI上机规定的12.5％的最低要求。在IDT版本的前8组和12组最低值是0和8.3％，如图11所示。

最终的拆分结果，如图16所示，本发明的由于8组和12组在每个位置的碱基都是平衡的，因而数据拆分百分比都能够达到97％以上，Illumina推荐IDT版的8组和12组数据拆分均不理想，分别是30％多和80％多，由于Hiseq X Ten是四色荧光通道的测序仪，碱基不平衡严重影响测序质量和数据有效拆分。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：本申请通过设计和优化了一种兼容性的建库和杂交捕获后的建库方式，本建库和杂交捕获方式可以实现即在Illumina平台上机测序，也可以文库直接环化后在MGI测序平台上上机测序。在设计Index时也充分考虑了index上下有第一个碱基序列，保证缺失和插入时都能保证三个编辑距离，使得拆分数据时不至于错分，同时严格的四平衡设计，避免上机测序时的排机困难，有利于保证测序质量和数据的有效拆分问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种兼容双测序平台的建库方法，其特征在于，所述建库方法包括：

采用带有5’磷酸化修饰的引物或5’磷酸化修饰的接头对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库，所述5’磷酸化修饰的线性的扩增文库即为适用于Illumin测序平台的线性文库；或者

进一步将所述带有5’磷酸化修饰的线性的扩增文库进行环化，获得适用于MGI测序平台的环化文库；

其中，所述5’磷酸化修饰的引物包括P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2；所述5’磷酸化修饰的接头包括P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4；

其中，SEQ ID NO：1：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；

SEQ ID NO：2：

CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；

SEQ ID NO：3：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，10个N代表P5端index序列，*代表硫代修饰；

SEQ ID NO：4：

/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；

其中，包括所述P5端index序列或所述P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。
根据权利要求1所述的建库方法，其特征在于，所述P5端index序列选自表1-1中任意一种，所述P7端index序列选自表1-2中任意一种。
根据权利要求2所述的建库方法，其特征在于，所述目标样本为多个，多个所述目标样本对应的所述P5端index序列选自表1-1中任意一组4碱基平衡的标签序列，多个所述目标样本对应的所述P7端index序列选自表1-2中任意一组4碱基平衡的标签序列，所述4碱基平衡的标签序列是指4个一组的标签序列平衡，即在标签序列的第1位到第10位的每个位置上，碱基A、T、G和C各有一个。
根据权利要求3所述的建库方法，其特征在于，采用带有5’磷酸化修饰的引物对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库包括：

采用SEQ ID NO：7和SEQ ID NO：8所示的截断型接头对来源于所述目标样本的片段进行接头连接，得到带接头片段；

采用SEQ ID NO：1和SEQ ID NO：2所示的所述5’磷酸化修饰的引物对所述带接头片段进行扩增，得到所述带有5’磷酸化修饰的线性的扩增文库；

其中，SEQ ID NO：7：ACACTCTTTCCCTACACGACGCTCTTCCGATC*T，*代表硫代修饰；

SEQ ID NO：8：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。
根据权利要求3所述的建库方法，其特征在于，采用5’磷酸化修饰的接头对目标样本进行文库构建，获得带有5’磷酸化修饰的线性的扩增文库包括：

采用SEQ ID NO：3和SEQ ID NO：4所示的全长型接头对来源于所述目标样本的片段进行接头连接，得到带接头文库；

采用SEQ ID NO：5及SEQ ID NO：6所示的文库扩增引物对所述带接头文库进行扩增，得到所述5’磷酸化修饰的线性的扩增文库；

其中，SEQ ID NO：5：/5Phos/AATGATACGGCGACCACCGAGAT；

SEQ ID NO：6：CAAGCAGAAGACGGCATACGA。
根据权利要求1至5中任一项所述的建库方法，其特征在于，在进行环化之前，所述建库方法还包括对所述线性的扩增文库进行靶向捕获的步骤；

优选地，采用5’磷酸化修饰的文库扩增引物对靶向捕获后的捕获文库进行扩增，得到线性扩增捕获文库，

对所述线性扩增捕获文库进行所述环化，得到所述适用于MGI测序平台的环化文库；

优选地，所述5’磷酸化修饰的文库扩增引物包括SEQ ID NO：5所示的P5磷酸化引物，以及SEQ ID NO：6所示的P7引物。
一种兼容双测序平台的建库试剂盒，其特征在于，所述建库试剂盒包括如下组合中的任意一种：

1)组合1：P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2，其中，SEQ ID NO：1：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；

SEQ ID NO：2

CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACG TGT，10个N代表P7端index序列；

2)组合2：P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4，其中，

SEQ ID NO：3：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，10个N代表P5端index序列，*代表硫代修饰；

SEQ ID NO：4：

/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；

其中，包括所述P5端index序列或所述P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。
根据权利要求7所述的建库试剂盒，其特征在于，所述P5端index序列选自表1-1中任意一种，所述P7端index序列选自表1-2中任意一种。
根据权利要求7所述的建库试剂盒，其特征在于，所述建库试剂盒包括412条P5端index序列和432条P7端index序列，所述P5端index序列如表1-1所示，所述P7端index序列如表1-2所示，

其中，所述P5端index序列和/或所述P7端index序列均按一组4碱基平衡的标签序列的方式配合使用。
根据权利要求7至9中任一项所述的建库试剂盒，其特征在于，所述建库试剂盒还包括SEQ ID NO：5和SEQ ID NO：6所示的文库扩增引物，和/或者SEQ ID NO：7和8所示的截断型接头。
一种兼容双测序平台的建库元件，其特征在于，所述建库元件选自如下组合中的任意一种：

1)组合1：P5截断型扩增引物SEQ ID NO：1和P7截断型扩增引物SEQ ID NO：2，其中，SEQ ID NO：1：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGAC，10个N代表P5端index序列；

SEQ ID NO：2

CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNGTGACTGGAGTTCAGACGTGT，10个N代表P7端index序列；

2)组合2：P5全长型接头SEQ ID NO：3和P7全长型接头SEQ ID NO：4，其中，

SEQ ID NO：3：

/5Phos/AATGATACGGCGACCACCGAGATCTACACNNNNNNNNNNACACTCTTTCCCTACACGACGCTCTTCCGATC*T，10个N代表P5端index序列，*代表硫代修饰，

SEQ ID NO：4：

/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNNNNNATCTCGTATGCCGTCTTCTGCTTG，10个N代表P7端index序列；

其中，包括所述P5端index序列或所述P7端index序列在内的index序列上下游各1bp的序列至少含有三个编辑距离。
根据权利要求11所述的建库元件，其特征在于，所述P5端index序列选自表1-1中任意一种，所述P7端index序列选自表1-2中任意一种。
根据权利要求11所述的建库元件，其特征在于，所述建库元件为扩增引物组合物或者接头组合物，

所述扩增引物组合物包括多组P5截断型扩增引物和/或多组P7截断型扩增引物的组合，每组所述P5截断型扩增引物包含选自表1-1中的任意一组4碱基平衡的标签序列，每组所述P7截断型扩增引物包含选自表1-2中的任意一组4碱基平衡的标签序列；

所述接头组合物包括多组P5全长型接头和/或多种P7全长型接头，每组所述P5全长型接头包含选自表1-1中的任意一组4碱基平衡的标签序列，每组所述P7全长型接头包含选自表1-2中的任意一组4碱基平衡的标签序列；

所述4碱基平衡的标签序列是指4个一组的标签序列平衡，即在标签序列的第1位到第10位的每个位置上，碱基A、T、G和C各有一个。