经系统检测,您当前使用的浏览器可能不符合交互需求。

为获得更好的交互体验,推荐您使用以下浏览器。

Firefox

点击下载

Chrome

点击下载

返回
有参转录组

1、RNA-seq

基于二代测序技术,研究特定细胞在某一功能状态下所有RNA 的功能,主要包括 mRNA 和非编码 RNA 。能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。


2、Library construction

文库构建,高通量测序前准备步骤。针对不同的研究目的建库方法不同。 通常包括核酸样品检测、片段化、(扩增)、加接头、片段选择、纯化、浓度检测等步骤。


3、insert size

插入片段大小,决定测序的长度。


4、adaptor

接头,用于上机测序。建库时引入的接头序列与测序芯片(flow cell ) 上固定的接头相互识别。


5、Reads

Reads是指高通量测序平台读取的序列信息。


6、SE, PE

 高通量测序的策略,SE (Single End),指单端测序;PE (Paired End), 指双端测序。


7、Q-score

碱基质量值,是碱基识别( Base Calling )出错的概率的整数映射。碱基质量值越高,Q30 指碱基质量值为30,即对应的测序错误率为0.1%,碱基的精确度为99.9%。


8、参考基因组

有参转录组的分析基础,通过与参考基因组比对进行转录组分析,区别于无参考基因组而进行de novo 组装的转录组测序,完整的参考基因组信息包括序列信息(.fasta 文件)和基因注释信息(.gff 文件)。


9、Gene

基因指具有编码蛋白质或决定某一性状作用的一段核酸序列。


10、Transcript

转录本,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的 mRNA 。一条基因通过内含子的不同剪接可构成不同的转录本。


11、可变剪接(alternative splicing)

大多数真核基因转录产生的 mRNA 前体是按一种方式剪接产生出一种 mRNA ,因而只产生一种蛋白质。但有些基因产生的mRNA 前体可按不同的方式剪接,产生出两种或更多种 mRNA,,这一过程称为可变剪接。


12、RNA编辑(RNA editing)

指在 mRNA 水平上改变遗传信息的过程。 具体来说, 指基因转录产生的 mRNA 分子中, 由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。


13、SNP(Single Nucleotide Polymorphism)

即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性。 SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换 (transition) 或颠换 (transversion)所引起,也可由碱基的插入或缺失所致。通常所说的 SNP 并不包括后两种情况。


14、反义链/有义链(antisense strand/sense strand) 

在双链DNA中,用来转录mRNA的DNA链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplate strand)。根据碱基互补配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的T mRNA链中全部置换成了U。由于非模板链的碱基序列实际上代表了 mRNA的碱基序列(只不过在mRNA中T换成了U),因此非模板链又被称为编码链(coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录mRNA的DNA链被称为非编码链(anticoding strand)或反义链(antisense strand)或沃森链(watson strand)。 


15、ORF(open reading frame) 

即开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。 


16、CDS(Coding sequence) 

是结构基因组学术语,指编码一段蛋白产物的序列。DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,与蛋白质的密码子完全对应。 


17、FPKM(Fragments Per Kilobase of transcript per Million fragments mapped) 

即每1百万个比对上参考基因组的reads中map到外显子的每1K个碱基上的fragment个数,用于计算基因的表达量。FPKM能消除基因长度和测序差异对计算基因表达量的影响。其计算公式为:

公式中, C为唯一比对到基因的fragments数,N为唯一比对到参考基因的总fragments数,L为基因的长度。


18、DEGDET

DEG (Differentially Expressed Gene):差异表达基因,指在两个不同条件(如,对照与处理、野生型和突变型等)下,表达水平存在显著差异的基因

DET (Differentially Expressed Transcript):差异表达转录本,指表达水平存在显著差异的转录本。 


19、FC, P-value, FDR

差异基因筛选条件,经典筛选条件为:|log2FC| ≥1 && FDR< 0.05

FC(fold change):差异表达倍数; 

P-value 即概率:反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,如P < 0.05其含义是样本间的差异由抽样误差所致的概率小于0.05; 

FDR(False Discovery Rate) ,即错误发现率:定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。


20、生物学重复(Biological Replicates)与技术重复(Technical repetition)

生物学重复:RNA-seq中定义为使用来自不同抽提的RNA样本进行测序;

技术重复:使用同一个抽提的RNA进行测序称为技术重复。 

通常生物学重复用于概括性结论的验证,技术重复用于减少这些结论的变异性。

微信扫一扫

//统计代码