基因组学相关基础知识

根据单元号，完成相应题目。

第一单元基因组学相关基础知识（8分）

1、人类基因组组成与遗传规律：

1) DNA的分子结构

DNA分子是以A,T,C,G 4种脱氧核苷酸为单位组成的双螺旋结构。碱基对是以氢键相结合的两个含氮碱基，以胸腺嘧啶（T）、腺嘌呤（A）、胞嘧啶（C）和鸟嘌呤（G）四种碱基排列成碱基序列，其中A与T之间由两个氢键连接，G与C之间由三个氢键连接。

2) DNA复制方式

l 半保留复制。

l 起始阶段->DNA 片段生成->RNA引物水解->完整DNA分子形成->螺旋结构形成

3) 人类基因组DNA序列特征

人类基因组由23对染色体组成，其中包括22对常染色体、1条X染色体和1条Y染色体。1号到22号染色体编号顺序，大致符合他们由大到小的尺寸排列。共含有约31.6亿个DNA碱基对，最大的染色体约含有2亿5千万个碱基对，最小的则约有3800万个碱基对。

2、基因及其表达与调控：

1) 基因的基本结构

2) 基因的表达

基因表达是指细胞在生命过程中,把储存在DNA顺序中遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子的过程。

3) 基因表达的调控

l 基因表达调控是生物体内基因表达的调节控制，使细胞中基因表达的过程在时间、空间上处于有序状态，并对环境条件的变化作出反应的复杂过程。

l 基因调控主要发生在3个水平上，即：DNA修饰水平、RNA转录的调控、和mRNA翻译过程的控制；

微生物通过基因调控可以改变代谢方式以适应环境的变化，这类基因调控一般是短暂的和可逆的；多细胞生

物的基因调控是细胞分化、形态发生和个体发育的基础，这类调控一般是长期的，而且往往是不可逆的。

3、基因突变及其生物学效应:

1) 基因突变类型

基因突变指基因组DNA分子发生的突然的、可遗传的变异现象。主要类型包括碱基置换突变、移码突变、缺失突变、插入突变。

（1）碱基置换突变：指DNA分子中一个碱基对被另一个不同的碱基对取代所引起的突变，也称为点突变。

（2）移码突变：指DNA片段中某一位点插入或丢失一个或几个（非3或3的倍数）碱基对时，造成插入或丢失位点以后的一系列编码顺序发生错位的一种突变。

（3）缺失突变：基因也可以因为较长片段的DNA的缺失而发生突变。

（4）插入突变：一个基因的DNA中如果插入一段外来的DNA，那么它的结构便被破坏而导致突变。

2) 基因突变的生物学效应

碱基置换突变和移码突变都能使多肽链中氨基酸组成或顺序发生改变，进而影响蛋白质或酶的生物功能，使机体的表型出现异常。碱基突变对多肽链中氨基酸序列的影响一般有四种类型：同义突变、错义突变、无义突变、终止密码突变。

3) 基因突变的诱变因素

（1）外因。物理因素（x射线、激光、紫外线、伽马射线等）、化学因素（亚硝酸、黄曲霉素、碱基类似物等）、生物因素（某些病毒和细菌等）；

（2）内因。DNA复制过程中，基因内部的脱氧核苷酸的数量、顺序、种类发生了局部改变从而改变了遗传信息。

4) DNA损伤的修复

DNA损伤修复是细胞对DNA受损伤后的一种反应，这种反应可能使DNA结构恢复原样，重新能执行它原来的功能；但有时并非能完全消除DNA的损伤，只是使细胞能够耐受这DNA的损伤而能继续生存。对不同的DNA损伤，细胞可以有不同的修复反应。在哺乳动物细胞中有四个较为完善的DNA修复通路，分别是核苷酸切除修复、碱基切除修复、重组修复和错配修复。

4、人类基因组学：

1) 人类基因组计划

于20世纪80年代提出,由美、英、日、中、德、法等国参加并于2001年完成的针对人体23对染色体全部DNA的碱基对序列进行排序,对大约25 000个基因进行染色体定位,构建人类基因组遗传图谱和物理图谱的国际合作研究计划。

2) 人类基因组单体型图计划

国际人类基因组单体型图计划（简称HapMap计划）是由多个国家（加拿大、中国、日本、尼日利亚、英国和美国）联合进行的项目。这一计划的目的在于建立一个免费向公众开放关于人类疾病（及疾病对药物反应）相关基因的数据库。利用HapMap数据库，研究人员通过比较不同个体的基因组序列来确定染色体上共有的变异区域。这将能够发现与人类健康、疾病以及对药物和环境因子的个体反应差异相关的基因。

3) 人类DNA元件百科全书计划

“DNA元件百科全书”计划（encyclopedia of dna elements，encode）是继“人类基因组计划”后最大的国际合作计划之一，于2003年9月由美国国立人类基因组研究所启动，其目的是寻求新一代DNA研究技术对人类基因调控序列在全基因组的水平上研究的应用。这个计划包括全世界11个国家80家科研机构35个小组的研究人员，当前已经产生了许多令人惊讶的发现，为未来进一步认识整个人类基因组的功能蓝图开辟了道路，对与人类疾病相关的基因序列研究产生重大的影响。

4) 人类表观基因组计划

继人类基因组计划(HGP)完成后，人类表观基因组协会(Human Epigenome Con-Sortium，HEC)于2003年宣布正式启动人类表观基因组计划(HEP)，HEP是在基因组水平对表观遗传学(Epigenetic)改变的研究，遗传学是基于基因序列改变所致的基因表达水平变化(如基因突变、基因杂合丢失等)，表观遗传学指基于非基因序列改变所致基因表达水平的变化，(如DNA甲基化和染色质构象变化等)

5) 癌症基因组图谱计划

2005年12月13日由美国政府发起的癌症和肿瘤基因图谱（Cancer Genome Atlas，TCGA）计划，试图通过应用基因组分析技术，特别是采用大规模的基因组测序，将人类全部癌症（近期目标为50种包括亚型在内的肿瘤）的基因组变异图谱绘制出来，并进行系统分析，旨在找到所有致癌和抑癌基因的微小变异，了解癌细胞发生、发展的机制，在此基础上取得新的诊断和治疗方法，最后可以勾画出整个新型“预防癌症的策略”，这一项目由美国国家癌症和肿瘤研究所（NCI）和国家人类基因组研究所（NHGRI）联合进行，预计耗资1亿美元。

第二单元测序技术相关基本知识（10分）

1、 PCR技术的基本原理与流程：

1) PCR实验原理：

类似于DNA的天然复制过程，PCR由变性–退火–延伸三个基本反应步骤构成：①模板DNA的变性：模板DNA经加热至95℃左右一定时间后，DNA双链解离成为单链.②退火(复性)：温度降至55℃左右，引物与模板DNA单链的互补序列配对结合；③引物的延伸：72℃条件下，DNA模板–引物结合物在TaqDNA聚合酶的作用下，以dNTP为反应原料，靶序列为模板，按碱基配对与半保留复制原理，合成一条新的与模板DNA 链互补的半保留复制链。重复循环这三过程，就可获得更多的扩展产物

b）PCR实验流程

准备体系-> 循环{变性–退火–延伸}-> 最后延伸15min -> 电泳纯化和检测

c) 影响PCR循环反应体系正常运转的关键因素

1. 适宜的反应体系（PH，Mg离子浓度，dNTP质量，酶的保真度和质量等）。

2. 引物设计合理，避免不完全互补或形成引物二聚体。

3. 适宜的反应温度和时间。

2、第一代测序技术：

1) Sanger 双脱氧末端终止法测序原理、测序特点

原理：在PCR时，除了加入四种dNTP外，还加入了被不同荧光标记的四种双脱氧碱基（ddNTP）。由于ddNTP的3’羟基是双脱氧的，无法连接5’磷酸，延伸反应在每一个位置遇到ddNTP都会终止，这样就能产生从第一个碱基到最后一个碱基所有不同长度的产物。用高分辨率的变性聚丙烯酰胺凝胶电泳（PAGE）分离产物，就能在每一个碱基位置上看到相应的荧光标记，从而实现测序。

特点：金标准，准确率很高，读长较长。

2) 技术流程及优劣势

流程：测序目标片段PCR扩增->PCR产物纯化->测序PCR->测序PCR产物纯化->上机测序

优点：准确，读长长；缺点：成本高，通量低。

3、第二代测序技术：五种测序平台（454焦磷酸测序、SOLiD 连接测序、Illumina 边合成边测序技术、Ion Torrent 半导体测序技术、华大基因Complete Genomics测序仪）

1) 五种测序平台的测序原理、测序特点

454——单碱基添加（SNA）:

引物与模板DNA退火后，在dna聚合酶(DNA polymerase)、ATP硫酸化酶(ATP sulfurytase).荧光素酶(1uciferase)和三磷酸腺苷双磷酸酶(Apyrase)4种酶的协同作用下，将引物上每一个dNTP的聚合与一次荧光信号的释放偶联起来，通过检测荧光的释放和强度，达到实时测定DNA序列的目的。

单碱基添加（SNA），454焦磷酸测序和Ion Torrent都属于这种测序原理。SNA的方法依赖单个信号来标记每个测序的碱基。因为它不能终止反应，所以每次只能允许进一种碱基来防止继续延长。这样要是单碱基重复就会继续读取。

特点：454的SNA系统是含有特定引物的珠子连同酶混合物一起进入PicoTiterPlate，当有一个碱基连入DNA链，就会产生一个生物荧光信号，通过相机捕获。

SOLiD ——基于连接的测序原理（SBL）

SBL测序就是用1-2个已知碱基标记的探针与目标DNA杂交，然后再与下一个标记的探针连接，检测标记探针的信号，从而知道目标DNA的序列信息。SOLiD和CG都是基于这种测序原理。

SOLiD基本原理是通过荧光标记的8碱基单链DNA探针与模板配对连接，发出不同的荧光信号，从而读取目标序列的碱基排列顺序。

Illumina —— 边合成边测序（SBS）

四种dNTP被不同的荧光标记，每个循环就结合一个互补的碱基，拍四次照，四个照片重合，出现哪种荧光标记就可以确定是哪个碱基。反应之后荧光基团会被切除，这样就露出了3’羟基基团，可以与下一个碱基连接。

特点：可逆阻断（CRT），一次只连接一个碱基，检测一次，去掉荧光基团后再进行下一次连接。

Ion Torrent：第一台不用光学传感的测序仪。4种dNTP依次流过Ion芯片，DNA聚合过程中释放氢离子，带来PH值变化。使用CMOS-ISFET检测器来检测PH值来识别不同碱基。所以要是有连续碱基重复的情况下，准确度不高。

CG测序：利用四种不同颜色标记的探针去读取接头附近的碱基，探针能够与DNA片段结合，T4 DNA连接酶连接探针和anchor，使探针稳定结合，从该探针携带的荧光基团的颜色为判断出该位置是何种碱基。

2) 不同测序平台文库构建类型、不同类型文库构建原理

一般分为片段/单末端和双末端配对文库，双末端分小片段和大片段文库，具体内容太多了，估计不会考那么细…

Illumina

CG：环状文库，没有单链文库

乳液PCR（454、SOLiD）

片段DNA模板与dNTP、引物和DNA聚合酶包在一个油滴中。在凝胶中进行PCR扩增，最后得到成千上万份相同的DNA序列。

固相的模板移位（SOLiD ）

片段DNA与固定的引物结合，PCR扩增延长引物得到第二链。然后部分变性，使得自由端可以与邻近的引物结合，再次扩增，起到放大的效果。

固相桥式扩增（Illumina）

片段DNA分散到Flowcell上，与固定的引物结合，进行桥式扩增，从而形成很多DNA簇。

DNA纳米球(Complete Genomics)

片段DNA加两次接头，然后进行滚环扩增，形成一个DNA纳米球，最后纳米球通过杂交的原理固定在阵列的flow cell。

3) 下机数据特点

454测序

SFF，需要转换成Fna/Qual

Illumina

FASTQ

SOLiD

CSFASTA / QV.qual质量文件

测序结果包含峰值

Ion torrent

Bam

d) 技术流程及优缺点

一般流程：DNA文库制备（打断，加接头，末端修复，筛选等） ->扩增 -> 上机测序

4、第三代单分子测序技术：

1) Nanopore测序原理及流程、

1. 解螺旋，将双链DNA解开成单链。

2. DNA单链分子通过一个孔道蛋白，孔道中有个充当转换器的蛋白分子。

3. DNA单分子停留在孔道中，有一些离子通过带来电流变化，而不同的碱基带来的电流变化是不同的。

4. 转化器蛋白分子感受5个碱基的电流变化。

5. 根据电流变化的频谱，应用模式识别算法得到碱基序列。

2) 单分子实时（SMRT）DNA测序原理、

Pacific Biosciences公司研发的单分子实时测序系统（Single Molecule Real Time，SMRT）应用了边合成边测序的原理，并以SMRT芯片为测序载体。基本原理如下：聚合酶捕获文库DNA序列，锚定在零模波导孔底部 4种不同荧光标记的dNTP随机进入零模波导孔底部荧dNTP被激光照射，发出荧光，检测荧光

荧光dNTP与DNA模板的碱基匹配，在酶的作用下合成一个碱基统计荧光信号存在时间长短，区分匹配碱基与游离碱基，获得DNA序列酶反应过程中，一方面使链延伸，另一方面使dNTP上的荧光基团脱落聚合反应持续进行，测序同时持续进行

c) 文库制备原理

d) 单分子实时（SMRT）DNA测序数据读取方法

第三单元生物统计学方法与原理（6分）

1. 生物统计学相关基本概念及原理：生物信息分析中涉及到的

a) 均值、

b) 众数、统计分布中具有明显集中趋势点的数值，代表数据的一般水平

c) 中位数、将数据从大到小排序，处在中间位置的数

d) 中程数、是极差（最大和最小值）的平均值

e) N50、在序列拼接中，将contig或者scaffold按照从到短进行排序，并对其长度进行累加，当累加长度达到contig或者scaffold全长的1/2时，最后一个contig或者scaffold的长度即为N50

f) 概率、随机事件出现的可能性。

g) 误差、测量值或计算值与真实值得差异

h) 变量、计算机语言中能储存计算结果或能表示值抽象概念，没有固定值，可以改变的

i) 数据分布、数据呈现出在一定范围内围绕某个中心而波动的分布特征。

j) 显著性检验：事先对总体的参数或分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断真实值与原假设之间是否有显著差异性。

k) p值：极端事件集合的总概率

l) 相关性：两个变量的关联程度

m) 离散程度：指通过随机地观测变量各个取值之间的差异程度，用来衡量风险大小的指标。

2. 常用生物数据统计方法：

1) 多重检验：

1. 使数据的Type I error（假阳性）出现小于特定数值

2) 假设检验

1. 基本原理：

1. 一个命题只能证伪，不能证明为真

1. 在一次观测中，小概率事件不可能发生

1. 证明逻辑就是：我要证明命题为真->证明该命题的否命题为假->在否命题的假设下，观察到小概率事件发生了->搞定。

2. 步骤

i. 确定零假设和备选假设

ii. 根据数据，计算在零假设成立的情况下，得到的观察的数据

iii. 确定判断标准 5%， 1% ？

iv. 做出结论

b. 实例(http://www.cnblogs.com/ywliao/p/6724334.html )

i. 参数检验是在总体分布形式已知的情况下，对总体分布的参数如均值、方差等进行推断的方法。非参数检验往往不假定总体的分布类型，直接对总体的分布的某种假设（例如如称性、分位数大小等等假设）作统计检验

ii. 正态分布参数检验

1. T检验参数检验： t.test(X,alternative = “greater”,mu=225)

2. T检验两个分布参数是否一致

a. 不配对： t.test(X,Y,var.equal = TRUE,alternative = “less”)

b. 配对： t.test(X-Y, alternative = “less”)

3. 方差检验： var.test(x, y, ratio = 1, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95, …)

iii. 二项分布参数检验

1. binom.test(x, n, p = 0.5, alternative = c(“two.sided”, “less”, “greater”), conf.level = 0.95)

iv. 非参数检验

1. 卡方检验

a. chisq.test(x, y = NULL, correct = TRUE, p = rep(1/length(x), length(x)), rescale.p = ALSE, simulate.p.value = FALSE, B = 2000) 其中x是由观测数据构成的向量或者矩阵，y是数据向量（当x为矩阵时，y无效)。correct是逻辑变量，标明是否用于连续修正，TRUE(缺省值)表示修正，FALSE表示不修正。p是原假设落在小区间的理论概率，缺省值表示均匀分布，rescale.p是逻辑变量，选择FALSE（缺省值）时，要求输入的p满足和等于1；选择TRUE时，并不要求这一点，程序将重新计算p值。simulate.p.value逻辑变量（缺省值为FALSE），当为TRUE，将用仿真的方法计算p值，此时,B表示仿真的此值。

2. 正太w检验 shapiro.test(w)

2. 差异分析

a. FPKM与RPKM区别

3. 多重校正

a. 参考来源：

i. https://zhuanlan.zhihu.com/p/31027746

ii. https://blog.csdn.net/zhu_si_tao/article/details/71077703

b. FWER校正方法：

i. bonferroni校正： p_adjust = p * N ， N为检验的次数

ii. Holm校正，P_adjust(n)=(N-n+1)*P , N为检验的次数，n为p值的秩。对于10000次假设检验，调整后的P value为

c. FDR校正

i. Benjamin and Hochberg FDR

1. 1.1 按照P value大小排列各个检验：

2. 1.2 对于排列在第j个位置的检验来说，其P value为 Pj，若其小于等于 j/m×δ，我们可以认为这个检验具有显著性。当δ = 0.05时，

d. R实现

4. 数据统计特征 https://wenku.baidu.com/view/6c8f875e4b73f242326c5f6d.html

a. 集中趋势的描述

i. 数据平均值

ii. 位置代表值：众数，中位数、分位数

b. 离散程度的描述

i. 方差和标准差

ii. 极差和四分位差

iii. 变异系数

c. 分布形态的描述

i. 偏度：数据偏斜方向和程度

ii. 峰度：数据陡缓程度

5. Lander-Waterman模型

a. http://www.math.ucsd.edu/~gptesler/186/slides/shotgun_15-handout.pdf

b. 这个模型是鸟枪法测序和基因组装的最基本的理论模型，它揭示了测序深度与覆盖度之间的关系。

c. G：基因组大小；L：reads长度 N：序列数 c=NL/G : 深度

d. 符合泊松分布，lambda=c

e. gap的比例： p=P(no read start in I）=e**(-c) ，覆盖度q=1-p = 1-e**(-c)

f. gap的长度：e**(-c)*G , contig的长度： G*q

g. contig预计个数： Np = Ne**(-c)

h. 每个congtig预计的reads数 e**c

g) 基因组特征参数估计 : 见上一条

h) 数据分析结果的展示与评论

§ venn图

□ 变种：方图，各种多边形

§ 二叉树：多个变量的系统分类系统

□ 连通的无环图，每个顶点度不大于3

□ 森林：若干互不交互的数集合

§ 散点图

□ 解释两个变量的相关性

§ 直方图

□ 单个变量数据集分布

® 数据位置

® 数据散布

® 偏度

® 异常

® 众数

§ 柱状图

□ 可以先归一化，数据集之间的比较情况

§ Boxplot

□ 表达位置和方差的极好工具

□ 异常值：大于1.5倍四分位差

□ 极端值：大于三倍四分位差

§ 饼图

热图

第四单元 Linux系统的基本操作与常用命令（6分）

1. Linux 操作系统安装：

a) 个人电脑安装Linux虚拟机安装的具体流程与方法

2. Linux 操作系统基本操作：

a) Linux操作系统安装与登录方法、

b) 简单的集群登录与操作方法

3. Linux 操作系统常用基本命令：(列出命令常用参数及基础示例用法)

a) pwd，

b) cd，

c) mkdir

d) rm，

e) cp，

f) mv，

g) cat，

h) less，

i) wc，

j) cut，

k) uniq，

l) df

4. Linux 操作系统常用操作符号：（列出用法及常用操作）

a) |，

b) >，

c) >>

d) &

5.VI编辑器的使用方法。

a) 列出VI编辑器的常用命令

第五单元 Perl 语言简单编程与数据处理分析（10分）

1、 perl语言编程环境、编程语言的格式：

a) 变量、

b) 标量数据、

c) 换行符、

d) 列表与数组、

e) 哈希、

f) 正则表达式、

g) perl语言的帮助系统

2、 perl语言各命令、代码的含义及文件信息处理：

a) 文件的输入与文件输出、

b) 序列提取、

c) 子程序、

d) 统计FASTA序列文件子程序

3、 perl语言的常用基本操作：

a) 利用perl读取FASTA文件中碱基序列，统计FASTA文件的CG含量，统计序列的长度分布、并对测序数据进行删除、挑取、排序等基础操作

4、在Perl程序中调用其它软件：

a) Perl里调用R、

b) Perl里调用BWA比对软件、

c) Perl里调用Samtools软件、

d) Perl里调用Soap SNP软件、

e) Perl里调用GATK软件

5、利用perl编写简单的生物信息分析程序：

a) 格式转换程序、

b) 利用正则表达式处理文本、

c) 基因组信息的统计、

d) 遗传漂变模拟

第六单元 R语言编程、绘图及生物统计分析（10分）

1. R语言相关基础知识：

a) R语言的历史、定义、功能、现状、优势及帮助系统

b) R程序的安装与运行

c) R语言的语法、对象及属性

2.使用R对生物数据进行统计分析：

a) R语言数据结构、类型及常用运算符

b) R数据结构——向量建立、向量运算、数组、数据框、列表、因子、 R程序设计

c) 生物统计数据的读取与存储——数据浏览与编辑、数据读取、分析与存储

3.R的基础绘图工具：

a) 常用绘图参数

b) 常用绘图函数的含义、

c) 高级绘图参数、

d) 画图面板分割及图形保存

4.使用R绘制简单图形：（绘制方法）

a) 散点图、

b) 条形图、

c) 文氏图、

d) 饼图、

e) 盒形图

f) 频率直方图、

g) 热图

第七单元生物信息分析常用软件及分析方法（40分）

1、生物信息分析相关序列比对原理、算法、流程及软件使用方法：

6. 序列比对原理与算法、

https://wenku.baidu.com/view/5f2ae11d876fb84ae45c3b3567ec102de2bddf38.html

7. 常用全局比对软件使用方法、

http://www.cnblogs.com/leezx/p/6100667.html

常用全局比对软件 MUSCLE

8. 常用局部比对软件、

常用局部比对软件Blast

9. Blast在线软件、

https://www.ncbi.nlm.nih.gov/

10. 常用短序列比对软件 SOAP2

http://soap.genomics.org.cn/soapaligner.html

11. 数据的质量控制及结果解读

HIC方面的，可做参考

http://www.360doc.com/content/17/1213/15/31841004_712716195.shtml

2、基因组de novo组装：

12. 基因组de novo组装的概念

De Novo 测序也叫从头测序，不需要任何基因序列信息即可对某个物种进行测序。用生物信息学的分析方法对序列进行拼接、组装，从而获得该物种的基因组序列图谱。目前广泛应用于从头解析未知物种的基因组序列、基因组成、进化特点等。

13. 基因组de novo组装意义相关基础知识

大片段文库（mate-pair）是指插入片段大于1Kb的文库，大片段文库主要是用于将Contig进一步组装成Scaffold。文库类型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。

小片段文库(pair-end)是指插入片段小于1Kb的文库，小片段文库产生的Reads主要用于拼接成Contig。例如在de nove测序中，我们通常要不同梯度下片段如250bp、350bp、500bp等。

值得注意的是除了de nove测序需要建大片段文库外，其他测序如重测序只需建一个小片段文库（250bp），而构建大片段文库过程繁琐，价格较高。这是de novo测序比重测序价格贵的原因之一。

基因组组装质量评估：

除用ContigN50和ScaffoldN50对基因组进行评估外，还会对基因组进行序列一致性评估、序列完整性评估、准确性评估、Cegma保守性评估等。

基因组注释:

我们要做的是对基因组进行注释，注释主要是对基因组中的

重复序列注释

非编码RNA的注释

基因结构的注释

基因功能的注释

注释的方法有同源注释以及de nove预测等。重复序列的注释主要是串联重复序列注释（卫星DNA、小卫星DNA以及微卫星DNA等）和散列重复序列（LTR、LINE、SINE以及转座子序列等）。非编码RNA的注释主要是对MicroRNA、rRNA以及tRNA等注释；基因注释主要是对基因的启动子、外显子、内含子等注释。

14. mate-pair文库构建

Mate-pair 文库制备旨在生成一些短的 DNA 片段，这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列，更具体地说：首先将基因组 DNA 随机打断到特定大小（2-40 kb 范围可选，华大已经做到了100kb）；然后经末端修复，生物素标记和环化等实验步骤后，再把环化后的 DNA 分子打断成 400-600 bp 的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成 mate-pair 文库，然后上机测序。

https://era7bioinformatics.com/en/page.cfm?id=1626&title=paired-end-and-mate-pair-sequencing:-what-is-it-and-how-is-it-done?

15. 不同测序数据特点

一代测序：又称Sanger测序（多分子，单克隆）

历史：第一代DNA测序技术（又称Sanger测序）在1975年，由Sanger等人开创，并在1977年完成第一个基因组序列（噬菌体X174），全长5375个碱基。研究人员经过30年的实践并对技术及测序策略的不断改进（如使用了不同策略的作图法、鸟枪法），2001年完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础。

原理：在4个DNA合成反应体系（含dNTP）中分别加入一定比例带有标记的ddNTP（分为：ddATP,ddCTP,ddGTP和ddTTP），通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。由于ddNTP的2’和3’都不含羟基，其在DNA的合成过程中不能形成磷酸二酯键，因此可以用来中断DNA合成反应。

二代测序：NGS技术（多分子，多克隆）

背景：Sanger测序虽读长较长、准确性高，但其测序成本高通量低等缺点，使得de novo测序、转录组测序等应用难以普及。经过数据不断的技术开发和改进，以Roche公司的454技术、illumina公司的Solexa，Hiseq技术，ABI公司的Solid技术为标记的第二代测序技术诞生，后起之秀Thermo Fisher的Ion Torrent技术近年来也杀入历史舞台。

1、Illumina 原理：

桥式PCR+4色荧光可逆终止+激光扫描成像

主要步骤：

①DNA文库制备——超声打断加接头

②Flowcell——吸附流动DNA片段

③桥式PCR扩增与变性——放大信号

④测序——测序碱基转化为光学信号

优势劣势：Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题，它的主要测序错误来源是碱基的替换。而读长短（200bp-500bp）也让其应用有所局限。

2、Roche 454

油包水PCR + 4种dNTP车轮大战 + 检测焦磷酸水解发光

主要步骤：

①DNA文库制备——喷雾打断加接头

②乳液PCR——注水入油独立PCR

③焦磷酸测序——磁珠入孔，焦磷酸信号转化为光学信号

优势劣势：454技术优势测序读长较长，平均可达400bp，缺点是无法准确测量类似于PolyA的情况时，测序反应会一次加入多个T，可能导致结果不准确。也正是由于这一原因，454技术会在测序过程中引入插入和缺失的测序错误。

3、Ion Torrent 原理

油包水PCR + 4种dNTP车轮大战 + 微电极PH检测

主要步骤：

①DNA文库制备——喷雾打断加接头

②乳液PCR——注水入油独立PCR

③微电极pH检测——磁珠入池记录pH

优势劣势：Ion Torrent与454相比，主要差异在测序中，Ion Torrent不需要昂贵的物理成像设备，成本相对较低体积较小，同时操作更为简单，整个上机测序可在2-3.5小时内完成（文库构建时间除外）。其劣势在于芯片的通量并不高，非常适合小基因组和外显子验证的测序。

小结：二代测序相比一代测序大幅降低了成本，保持了较高准确性，并且大幅降低了测序时间，将一个人类基因组从3年降为1周以内，但在序列读长方面比起第一代测序技术则要短很多，这也给三代测序提供了发展空间。

三代测序：单分子测序

背景：测序技术经过第一代、第二代的发展，读长从一代测序的近1000bp，降到了二代测序的几百bp，通量和速度大幅提升，那么第三代测序的发展思路在于保持二代测序的速度和通量优势同时，弥补其读长较短的劣势。三代测序与前两代相比，最大的特点就是单分子测序，测序过程无需进行PCR扩增。

1、Oxford nanopore

纳米孔 + 电流检测技术

原理：该技术设计了一种特殊的纳米孔，孔内共价结合有分子接头，最终得到电信号而不是光信号或pH信号的测序技术。当DNA碱基通过纳米孔时，电荷将发生变化，因而短暂地影响流过纳米孔的电流强度（每种碱基所影响的电流变化幅度是不同的），灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。

优势劣势：

①读长很长，大约在几十kb，甚至100 kb；

②错误率目前相比较高，且是随机错误，而不是聚集在读取的两端；

③数据可实时读取；

④通量很高(30x人类基因组有望在一天内完成)；

⑤起始DNA在测序过程中不被破坏；

⑥样品制备简单又便宜；

⑦可直接测序RNA。

2、PacBio SMRT

纳米孔 + 荧光可逆终止dNTP技术

原理：PacBio SMRT技术其实是应用了边合成边测序的思想（使用4色荧光标记 4 种碱基），其超长读长的关键在于使用了活性持久且高保真的DNA聚合酶，并以SMRT芯片为测序载体（ZMW原理）。

优势劣势：

①SMRT技术的测序速度很快，每秒约10个dNTP；

②错误率较高，达到15%，出错随机，可通过多次测序来进行有效的纠错（如使用Sparc对30X的数据进行分析，错误率可达到0.5%）；

③原始DNA不被破坏；

④读长可达10kbp。

3、Helicos Heliscope

单分子荧光可逆终止技术

原理：该技术基于边合成边测序的思想，将DNA随机打断成小片段分别进行dNTP荧光标记，经过不断地重复合成、洗脱、成像、淬灭过程完成测序。

主要步骤：

①制备：DNA打断加polyA+Cy3

②测序：dNTP荧光可逆终止

特点：

①读取长度约为30-35 bp，每个循环的数据产出量为21-28 Gb；在测序完成前，各小片段的测序进度不同；

②可根据同聚物的合成会导致荧光信号的减弱这一特点来推测同聚物的长度；

③可通过二次测序来提高准确度（直接变形洗脱模板）

小结：

三代测序优势：

①第三代基因测序读长较长，可以减少拼接成本，节省内存和计算时间；

②作用原理上避免了 PCR 扩增引入错误；

③拓展应用：RNA的序列，甲基化的DNA序列等；

三代测序缺陷：

①单读长的错误率偏高，需重复测序以纠错（增加测序成本）；

②依赖DNA聚合酶的活性；

③成本较高（二代Illumina的测序成本是每100万个碱基0.05-0.15美元，三代测序成本是每100万个碱基0.33-1.00美元）。

④生信分析软件不够丰富、数据积累少。

e) 组装基本思路

f) overlap、

g) Contig、

Reads：即我们通常说的读长的意思，它是指高通量测序平台直接产生的DNA序列。

Contig：是指Reads基于Overlap关系，拼接获得的长的序列；

h) scaffold

Scaffold：是指将获得的Contig根据大片段文库的Pair-end关系，将Contig进一步组装成更长的序列；

Contig是无Gap的连续的DNA序列，而Scaffold是存在Gap的DNA序列。

i) N50

Contig N50是指将拼接得到的Contig从长到短进行排列，排列成一条线。当长度达到总长度一半的时候，此时该条Contig的长度即为ContigN50；如图所示，Contig 2的长度即是ContigN50。

Scaffold N50是将组装得到的Scaffold从长到短进行排列，当长度达到总长度一半的时候，此时该条Scaffold的长度即Scaffold N50。

一般来说C是ontiN50和ScaffoldN50的长度越长，基因组组装的质量也就越好。但是ContigN50和ScaffoldN50也不是唯一评估标准，还要看基因组的拼接的完整性等。

j) 利用测序深度及泊松分布模型预估测序数据量、

k) Kmer深度分布、

l) Kmer分析方法的其他应用范围、

m) 组装的具体流程和算法、

n) 组装结果影响因素、

o) 组装常用结果评估指标、

p) SOAP de novo 组装软件下载安装与使用方法、

q) 下机数据质量控制、

r) 基因组大小的评估&数据纠错、

s) SOAP de novo 配置文件

3、基因组重测序：基因组重测序原理及常用软件使用方法：

16. 比对方法及常见问题说明

比对方法：

线性查找（从头到尾）：BLAST；

哈希表（Hash table）：MAQ，Bowtie，SOAP；

索引数组（Suffix array）或索引树（Suffix tree）和BWT算法：BWA，SOAP2，Bowtie2（主要用于RNA-seq比对）；

70bp以下的read，比对用BWA sampe或samse；70bp-100bp以上的read，比对用BWA mem；

SAM、BAM和CRAM是常用的比对数据存储格式，存储内容相同，区别在于存储方式不同;

常见问题说明：

Amplification errors；

Strand bias；

Duplicate reads；

Multireads；

Chimeric reads；

Un-properly paired reads

17. 比对数据的质量控制

基于某基因组区域的深度与覆盖度，对该区域的比对进行质控

18. 深度与覆盖度统计

深度：depth，每个位点覆盖reads的条数称为该位点的深度；

覆盖度：coverage，目标区域内满足特定覆盖深度位点的比例，如某个基因区域内，深度在10x以上的覆盖度就是该基因区域内所有大于10x的位点占该基因总位点的比例；

用bamdst进行深度与覆盖度的统计

19. 变异检测

基于HTSlib开发的通用处理工具；

bcftools；

GATK系列；

SOAP系列；

20. 结构变异检测

结构变异指近1kb或1kb以上的DNA区域发生的变异，可以是倒位、平衡性的易位、非平衡性的插入缺失；

CNV，copy number variation，拷贝数变异，指在基因组上特定的一段序列发生缺失（少于正常拷贝个数）或重复（多于正常拷贝个数），是一种特殊的SV；

检测CNV的三种方案，包括利用深度检测，利用断裂点检测（同SV），利用突变基因型检测

21. 突变检测数据QC

单个样品总体QC，包括Ti/Tv，突变个数；

单个突变位点的QC，包括read depth，strand bias，allele balance；

多样品群体分析QC，包括HWE，fisher’s exact test，allele frequency（开放数据库中该位点频率）

22. 数据注释突变数据库

突变频率数据库，包括G1000，ExAC，ESP6500，dbSNP，dbVar（包含了大范围的突变信息）

功能预测数据库，dbNSFP

突变致病信息与表型数据库，包括HGMD，dbGap，ClinVar

23. 群体遗传突变分析

研究目的，包括了解某一物种或族群的进化历史（迁移），了解某一物种或族群的遗传特性；

研究步骤，1 SNP变异查找（与个体变异信息查找方法相同），2a 进化树构建，2b 人群突变频率统计与解读（plink，MVNcall），2c 遗传标记查找（SNPs，SVs，SSRs，InDels）

4、基因注释：

a) 基因注释原理

b) 基因注释流程

c) 基因注释常用软件

d) 基因组组装结果是否符合注释要求的结果评估与质量控制

e) 不同类型重复序列预测方法及分析流程

f) 利用Genscan

g) Glimmer进行基因结构注释的软件使用方法

h) 利用Genewise进行基因同源结构预测的流程及软件使用方法

i) 利用tRNAscan进行ncRNA预测的操作方法

j) 数据的质量控制及结果解读

第八单元生物信息分析常用数据库（10分）

24. NCBI数据库的结构、使用方法、

NCBI数据库简介

25. 国际三大核酸数据库：NCBI、EMBL、DDBJ

26. NCBI的组成：检索窗口、资源列表（数据库，软件等）以及常用资源

NCBI数据库的使用方法

27. 搜索完成之后可以根据数据库，基因类型等筛选过滤也可以使用高级搜索Advance（根据物种、杂志、来源等各种限定条件搜索）

28. GeneBank格式：LOCUS、ACCESSION、JOURNAL、REFERENCE、FEATURE以及基因序列信息等

29. FASTA格式

30. 右上角send to可以批量下载

31. NCBI PubMed 文献检索方法

32. PubMed是提供免费的MEDLINE、PERMEDLINE与其他相关数据库接入服务，MEDLINE是一个拥有1亿字条的巨大数据库

33. 选择PubMed，用关键字进行检索

34. GO功能注释数据库的组成、结构、用途及在线检索方法

构建GO数据库的目的

35. GO基因本体联合会（Gene Ontology Consortium）构建的一个结构化的标准生物学模型，旨在建立基因及其产物知识的标准词汇体系

36. 一个基因注释是对基因产物的描述，有特定的分子功能（molecular function），涉及到特定的生物过程（biological process）和作用在特定的细胞组分（cellular component）

GO数据库的组成与结构

37. 预定义术语（term）来描述基因产物

38. 包括三个本体（Ontology）：MF、BP与CC

39. Ontology Structure ：有向无环图Nodes和Edges

40. Ontology relationship

n is a :上一个概念包括下一个概念，下一个概念是上一个概念的实例

n part of：下一个概念是上一个概念的一部分

GO数据库的用途

41. 使基因及其产物知识词汇标准化，有利于计算机处理数据

42. GO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息

43. 与其它数据库建立联系，使研究者能更加方便的获取数据

GO数据库在线查询

44. AmiGO

45. 可根据GO terms或者gene or proteins检索

46. KEGG数据库的组成、结构、用途、在线检索方法及其生物学意义

KEGG数据库简介

47. 1995 KEGG京都百科全书

48. KEGG是一个整合了基因组、化学和系统功能信息的数据库

KEGG数据库组成

49. 数据库、软件以及资源列表；数据库的种类，常用的是KEGG Pathway数据库

50. 包含系统信息、基因组信息、化学信息和疾病相关数据库等19个数据库构成

51. KEGG ID号，以KEGG PATNWAY为例：由前缀（map,ko,ec,m,(org)）和五位数字组成。

KEGG 数据库在线检索

52. 输入基因名字检索，可检索到基本信息、生物通路、功能分类、蛋白结构数据库、其他数据库、蛋白序列和核算序列

53. pathway查询：选物种，输入编号检索

54. DBGET

55. DAVID数据库的组成、结构、用途、在线检索方法及其生物学意义

56. DAVID，功能注释数据库，信息整合以及可视化,可用于

n 功能注释

n 功能聚类

n 数据库基因ID转换

n 基因名称展示

2. Start Analysis

n upload gene list

n 选择基因ID的数据库类型

n 选择gene list还是backgroud

n Submit

f) UCSC数据库的组成、结构、用途、在线检索方法及其生物学意义

g) UniProt数据库的组成、结构、用途、在线检索方法及其生物学意义

h) UniRef数据库的组成、结构、用途、在线检索方法及其生物学意义

i) UniPare数据库的组成、结构、用途、在线检索方法及其生物学意义

Quicl's Blog

谋定而后动，知止而有得！

基因组学相关基础知识