转录调控项目信息总结

一、常见实验问题

1. 野外取样野外取样无液氮、干冰等速冻如何保存？

去除叶片表面的脂化膜，剪碎叶片，存于RNA later保存液中，提取时5倍体积提取。1-2天问题不大。

2. 血液及肿瘤样本需要做哪些特殊处理

血液和肿瘤样本由于RNA酶含量丰富，极易造成RNA的降解，因此在活体取样后，需要尽快放入液氮速冻或加入RNAlater防止RNA降解。

2. 做转录组项目时RNA中很多DNA污染，可以建库吗？

可以，磁珠调取的方法，不会有影响。但是蛋白污染的话会有影响，有些蛋白的存在会在后续建库造成干扰。

3. 在做真核生物转录组测序时，会测到线粒体、叶绿体 RNA 吗？

正常情况下是不会的，因为线粒体、叶绿体 RNA 不具有 polyA 尾巴的结构。

4. RNA提取是否需要DNA酶处理？

一般的RNA试剂盒会有去除的步骤，但效果不好，如果是转录组，我们是ployA富集（DNA不含ployA不会被富集)建库，一般影响不大，而且上机前会有建库的定量，对产量影响也不大。

5. 原核生物的rRNA去除效率是不是都可以达到90%以上

原核生物的rRNA去除效率取决于rRNA remove中探针的匹配率，商业化的探针虽然是广谱性的，但是针对一些特殊的原核生物的rRNA的去除效率并不高，因此如果是一些没有经过试剂盒验证的原核生物，无法保证rRNA的去除效率。

6. 定量基因挑选问题

建议转录组测序后定量挑选基因20个左右，先结合GO和KEGG富集分析入手，找打研究方向，结合韦恩图分析缩小差异基因范围，最后根据基因共表达分析和蛋白互作共表达分析找出分模块的核心基因。

验证注意事项：需挑选差异表达倍数大的，且其中至少有一个基因表达量要大。

7. QPCR进行验证，验证的基因表达趋势与测序结果中不一致

首先，我们需要确定检验的样品是否是同一批次，验证样品的上下调关系是否与测序结果中的一致（这个需要根据测序公司具体的分析结果，比如某个基因的FC值对应的样品写的是T01 vs T02 ，那么T01就是对照组、T02是实验组），若样品不为同一批次或其上下调关系颠倒了，则势必会导致验证基因表达趋势不一致的情况。

其次，我们需要查看验证基因的表达量、样品和实验用的引物是否被污染，若验证基因表达量过低，则有可能导致差异不显著，若样品或实验用的引物被污染则后续结果可能也不会准确，所以我们尽量不要挑选表达量太低的基因，同时，需要保证样品和实验引物没有被污染。

当以上所有情况都不存在，且结果依然不一致，这时我们需要检查QPCR结果是否正确。如果仅一个基因验证结果不一致，则不足以说明测序或者验证有问题，但当我们选择了15个基因甚至更多时，结果依然不一致时，那么我们可能需要分析测序数据的结果是否正确，同时检查结果预期是否正确。

二、常见分析问题

1. 原核转录组测序是否可以做无参分析

不建议进行无参分析，是因为原核生物的mRNA一般多为顺反子，直接拼接效果会很差。

2. Small RNA-seq只能捕获到miRNA的数据么

Small RNA-seq由于其建库的特点，可以捕获到miRNA、piRNA和tRNA小片段，但是由于分析流程的限制，一般sRNA-seq只分析miRNA的数据。

3. lncRNA的调控作用

影响周边和远端基因表达（顺式调控和反式调控）；调控蛋白活动及定位；产生小分子RNA；对其他RNA的调控作用

4. 常规表观修饰测序（WGBS/RRBS/CHIP-SEQ/RIP-SEQ）是否需要参考基因组

物种要求：真核生物，物种有参考基因组，至少拼接到scaffold水平；具有较为完整的注释。

5. miRNA表达及组织异构体

在miRNA鉴定中，可能成为miRNA的reads是怎样计算的？哪些条件会影响到mrd值？micro RNA在不同组织有异构体的存在，是如何处理的？

与 Rfam， miRbase， RepBase和 ExonIntro 序列库进行比对，获得 sRNA 注释信息，以此作为预测新的 miRNA 的基础。miRNA的鉴定是利用miRDeep2软件进行已知及新（保守及非保守）的miRNA鉴定。miDeep2会在reads比对到基因组上的位置两端分别延伸75、15bp进行结构预测，此软件认为极可能与可能是miRNA的根据是通过mrd值来区分的，mrd>-10为可能，mrd>0为极可能；影响mrd值的有reads在基因组上的分布和碱基结合的自由能等；

6. 小RNA中，成熟序列相同的miRNA如何确定各自的表达量

测序时理论上得到的是miRNA成熟序列，通过比对数据库中的miRNA成熟序列及前体序列来确定miRNA，这种情况下得到的reads没有办法判断是属于哪一个成熟序列相同的miRNA前体的，这样的miRNA会列出所有成熟序列相同的miRNA，且在同一样品中表达量相同；但是测序时是通过片段大小选择来获得测序文库的，并不是严格意义上的只有miRNA成熟序列的reads，所以会有一些包含成熟序列上下游几nt前体序列的reads，这种情况下，可以通过这部分非成熟序列的序列来判断该reads是属于哪一个miRNA前体，从而得到的成熟序列相同的不同miRNA在同一样品中表达量则会不同。

7. lncRNA预测时为什么选择含有2个及2个以上外显子的转录本？

关于lncRNA预测，目前的文献中有多种不同的筛选角度和不同的标准(比如,长度,外显子个数,ORF长度,同已知nonconding数据库比对,不同的预测软件,覆盖度,FPKM值等等),筛选条件到目前为止也并没有一个统一的定论，有较多文献支持选择含有2个及2个以上外显子的转录本进行筛选。

8. 差异基因筛选为什么选择FDR？

FDR是q-value的校正值，是目前在RNA-seq中使用最普遍的公认的Benjamini-Hochberg校正方法，可参考Benjamini and Hochberg在1995年第一次提出了FDR(False Discovery Rate)的概念以及相应的多重检验校正方法的文章。

9.外显子，内含子及基因间区各自的比例如何评估建库情况？

理论上，来自成熟mRNA的reads应该比对到外显子区。但是，由于基因组注释水平、可变剪切导致的内含子序列保存，以及很多RNA（比如lncRNA）就来自基因间区和内含子，因此有比对到内含子和基因间区的reads。受物种等的影响外显子所占比例不同，一般情况下外显子区域所占比例超过70%即比较理想。

10. 多个Unigene注释一样，序列长度不同，相似性较低，为什么？

首先某一基因可能比较长，但无参考基因组装出的片段即Unigene很难组装得到全长，得到的是这个基因上的大小不等的片段，在进行比对的时候就会比对到同一个基因上，因此他们的注释信息一致;

从序列来看Unigene基因的序列相似度不高，但是因为比对的是蛋白，所以可能他们的蛋白相似度会比较高，因此会注释到同一基因上。

11. 无参转录组中同一ID下有多条序列，想得到此序列的核苷酸信息应选哪一条？

同一个ID号下面好几条序列，这个应该是组装过程中装出来的转录本序列，来自同一个Component（具体见Trinity组装的第二步），其ID前缀相同，后面跟着seq+数字的编号。Trinity软件认为这些转录本来源于同一个基因，因此，选取其中最长的那个转录本的序列作为该基因的序列。

12. 差异基因分析和数据库注释

差异基因分析基因表达上调与下调的数目，进行差异表达基因的聚类分析和差异基因的注释和富集分析。数据库注释COG：基于细菌、藻类、真核生物的系统进化关系构建-对基因产物进行直系同源分类。KOG：针对真核生物，基于基因直系同源关系，结合进化关系对基因产物进行直系同源类。Pfam：全面的蛋白结构域注释的分类系统，每个特定结构域的蛋白序列具有一定的保守性。KEGG：系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库，整合了基因组、化学分子和生化系统等方面的数据径查询，对催化各步反应的酶进行全面注解，进行代谢网络研究。包括代谢通路、药物、疾病、基因序列以及基因组等。String：根据已知蛋白的互作关系构建蛋白互作网络。GO：基因功能分类体系，描述生物体内基因和基因产物的功能属性，分为分子功能MF、细胞组分CC和生物学过程BP三个大类。NR：非冗余蛋白数据库，CDS数据翻译过来的蛋白质数据库。Swissprot数据库：包含了相关文献且经过校对的蛋白注释信息数据库，可信度较高。

13. 转录组分析常规流程

14. 差异基因分析套路

差异基因筛选，然后做注释和富集分析，利用韦恩图缩小差异基因范围，筛选出在不同时期表达模式不同的基因，同时借助已有的蛋白互作关系，分析DEG蛋白间的项目作用关系，发现新的基因。

三、常见名词问题

1. CDS和ORF

CDS是编码蛋白质的一段序列，ORF是从起始密码子到终止密码子的一段序列，不是所有的读码框都能表达出蛋白质，CDS一定是ORF，但ORF不一定是CDS；在预测CDS的时候是先跟数据库比对，比对上的直接提取CDS序列，比对不上的再用软件预测。

2. Unigene N50

Unigene N50 的大小是评判转录组组装效果的一个指标，将所有 Unigene 按照从长到短的顺序排列，然后从长到短依次相加，当加和达到 Unigene 库总长度的 1/2 时的那条 Unigene长度为 Unigene N50 的长度。

3. p_value和FDR

p value：T检验用于判断两个平均数的差异是否显著的值。q value（FDR）：为经过多重校验后的p value，能更好地控制假阳性率。

4. Read count和FPKM/RPKM

Read count：在二代测序中，每个测序反应得到的序列为一个“read”，通过统计某一个“read”在整个测序中出现的次数即为read count，可以用read count表示RNA丰度。FPKM（Fragments Per Kilobase per Million mapped reads）：FPKM与RPKM代表的意义很相近，二者区别在于FPKM是以fragment数为计算单位而RPKM以reads数为计算单位。RPKM的诞生是针对早期的SE测序，FPKM则是在PE测序上对RPKM的校正。在Paired-end 测序中，一个fragment就是两条PE reads构成的片段。由于是PE比对，理论上比SE比对更可靠。

Xi：每个转录本比对上的片段数；

li：每个转录本长度；

N：比对成功的总reads数；

RPKM（Reads Per Kilobase per Million mapped reads）：以reads数为计算单位，对基因长度（基因间的比较）和总数据量（样本间的比较）做矫正；

rg：每个转录本比对上的reads数；

flg：每个转录本的长度；

R：比对成功的总reads数；

5. 基因和转录本数据

定量基因表达和评估转录图谱相似性只需要中等测序深度，而研究新转录本和可变剪切需要较深的测序深度。基因：基因差异分析和基因共表达分析转录本：转录本重构和定量：可变剪切分析二代测序技术产生的reads较短，短片段导致的信息损失需要依靠统计建模去推断和弥补：极大似然回归和基于回归分析，分别基于转录本表达量构建混合概率模型和回归模型，进行最优参数的计算。外显子水平分析:外显子的剪接百分比，常见方法有：MISO，SpliceTrap和rMATS等。MISO和SpliceTrap都构建了类似于贝叶斯框架下的模型，作为感兴趣的参数，然后可以基于其后验分布获得贝叶斯置信区间。

6 Contig 与transcript

转录组测序的原始数据包含了很多的reads，通过序列的拼接，具有重叠区的reads会被组装成更大的片段，称之为contig。将reads比对回contig，通过paired-end reads能确定来自同一转录本的不同contig 以及这些contig之间的距离，将这些contig连在一起，最后得到两端不能再延长的序列，称之为Unigene。Transcript即转录本。

7. 已知micRNA、保守的micRNA以及新预测的micRNA?

已知micRNA指的是序列在miRBase数据库中百分百的比对到该物种的序列上，如果在该物种上没有比对上但比对上了数据库中的其他物种上我们称之为保守的micRNA；新预测的micRNA：通过miRDeep2软件进行预测，有一定的read能够比对到基因组上，并且比对位置的序列可以形成发卡结构，那么就会作为新预测的miRNA。

8. WGCNA基因共表达分析

用于识别差异表达基因的共表达模式，分析样品间的mRNA表达的模式，将相同表达趋势的mRNA聚类为一个模块对特定的基因进行基因共表达网络分析，将基因划分为不同的模块，探索模块与特定表型或疾病的关联关系，筛选关键基因集。

康旭禾生物提供包括动物实验、细胞实验、分子实验、病理实验、流式检测实验及论文翻译、润色、投稿辅助等相关的各项服务。

联系方式：19379182007

公司官网：http://consurebio.com/

公司地址：江西省南昌市南昌县小蓝VR产业基地D座2楼

分享至微信分享