【est序列】的意思_什么是est序列

简介

At a time when the genomes of many species have been sequenced completely, a fundamental

resource expected by many researchers is a simple list of all of an organism's genes. A gene list,

together with associated physical reagents and electronic information, allows one to begin to

investigate the ways in which many genes interact in the complex system of the organism. However,

many species of medical and agricultural importance have not yet been prioritized for

genomic sequencing, and expressed cDNAs have provided the primary source of gene

sequences. Furthermore, when the genomic sequence of an organism becomes available, a collection

of cDNA sequences provides the best tool for identifying genes within the DNA sequence.

Thus, we can anticipate that the sequencing of transcribed products will remain a significant area

of interest well into the future.

The eara of high-throughput cDNA sequencing was initiated in 1991 by a landmark study from

Venter and his colleagues. The basic strategy involves selecting cDNA clones at random and

performing a single, automated, sequencing read from one or both ends of their inserts. They

introduced the term EST to refer to this new class of sequence, which is characterized by being

short (typically about 400–600 bases) and relatively inaccurate (around 2% error). The use of

single-pass sequencing was an important aspect of making the approach cost effective. In most

cases, there is no initial attempt to identify or characterize the clones. Instead, they are identified

using only the small bit of sequence data obtained, comparing it to the sequences of known genes and other ESTs. It is fully expected that many clones will be redundant with others already

sampled and that a smaller number will represent various sorts of contaminants or cloning artifacts.

There is little point in incurring the expense of high-quality sequencing until later in the

process, when clones can be validated and a non-redundant set selected.

Despite their fragmentary and inaccurate nature, ESTs were found to be an invaluable

resource for the discovery of new genes, particularly those involved in human disease processes. After the initial demonstration of the utility and cost effectiveness of the EST approach,

many similar projects were initiated, resulting in an ever-increasing number of human ESTs.

In addition, large-scale EST projects were launched for several other organisms of experimental

interest. In 1992, a database called dbEST was established to serve as a collection point for

ESTs, which are then distributed to the scientific community as the EST division of GenBank.

The EST division continues to dominate GenBank, accounting for roughly two-thirds of all submissions.

原理

EST是从一个随机选择的cDNA克隆进行5’端和3’端单一次测序获得的短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为360±120bp。EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此EST也能说明该组织中各基因的表达水平。

首先从样品组织中提取mRNA ,在逆转录酶的作用下用oligo ( dT)作为引物进行RT -PCR合成cDNA ,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

克隆全长cDNA序列的传统途径是采用噬斑原位杂交的方法筛选cDNA文库，或采用PCR的方法，这些方法由于工作量大、耗时、耗材等缺点已满足不了人类基因组时代迅猛发展的要求。而随着人类基因组计划的开展，在基因结构、定位、表达和功能研究等方面都积累了大量的数据，如何充分利用这些已有的数据资源，加速人类基因克隆研究，同时避免重复工作，节省开支，已成为一个急迫而富有挑战性的课题摆在我们面前，采用生物信息学方法延伸表达序列标签（ESTs）序列，获得基因部分乃至全长cDNAycg，将为基因克隆和表达分析提供空前的动力，并为生物信息学功能的充分发挥提供广阔的空间。

基因识别

EST技术最常见的用途是基因识别，传统的全基因组测序并不是发现基因最有效率的方法，这一方法显得即昂贵又费时。因为基因组中只有2%的序列编码蛋白质，因此一部分科学家支持首先对基因的转录产物进行大规模测序，即从真正编码蛋白质的mRNA出发，构建各种cDNA文库，并对库中的克隆进行大规模测序。Adams等提出的表达序列标签的概念标志着大规模cDNA测序时代的到来。虽然ESTs序列数据对不精确，精确度最高为97%，但实践证明EST技术可大大加速新基因的发现与研究。Medzhitov等通过果蝇黑胃TOLL蛋白进行dbEST数据库检索，该蛋白已证实在成熟果蝇抗真菌反应中发挥重要作用，通过同源分析的方法，找到相应的人类同源EST（登录号为H48602），这为接下来研究人类TOLL同源蛋白的功能提供了很好的条件。hMSH5基因是从酿酒酵母菌MSH5存在30%的一致性，它与hMSH4特异性相互作用，在减数分裂和精子发生过程中发挥一定的作用。由此可见，应用EST技术，可以跳过生物分类学的界限，从生物模型的已识别基因迅速克隆出人和小鼠基因组相应的更复杂的未知基因。生物间在核苷酸水平上的进化差异阻碍了传统意义上的杂交或以PCR为基础的基因克隆策略，即使是亲缘关系很接近的生物也不例外，如C.elegans和C.briggsae，它们仅在2～5千万年前分化形成。而通过计算机进行dbEST进行数据库筛选，其配制是电子杂交实验，提供了一条更为广泛的基因识别路线，这一路线允许基因组间存在差异，这使得基因识别与新基因克隆策略发生革命性变化，同时它也提供了一个足够大小和复杂的基因数据库，ESTs数量正以平均每月10万条的速度递增。

物理图谱

ESTs在多种以基因为基础的人和植物基因组物理图谱构建中扮演着重要角色。在这一应用中，从ESTs发展起来的PCR或杂交分析可用来识别YACs、BACs或其他含有大片段插入克隆类型的载体，它们是构建基因组物理图谱的基础，将EST与基因组物理图谱相比较即可辨认出含有剩余基因序列的基因组区间，包括调控基因表达的DNA控制元件，对这些元件进行分析就有可能获得对基因功能的详细了解。物理图谱与遗传图谱间的相互参考，形成一个用途更广泛的综合资源，获得这张综合图谱后，研究人员就可以孟德尔遗传特征为基础，将相关基因定位在基因组区间上，并且通过查询以ESTs为基础的苈图谱，即可获得这一区间上所有基因的名单。该综合资源用途的大小取决于EST数据库中拥有的基因数目。人和小鼠EST的不断扩充使其应用更加广泛和便捷。

序列注释

EST数据库并非完美无瑕，因为ESTs不能被剪切为单列序列位点识读，故精确度只能达到97%，另外，ESTS受制于表达倾向（expression bias），因为产生ESTs的cDNA是组织中丰富的mRNA以一定比例反转录而成，因此，表达水平很低的EST数据库中很难找到，而表达量高的基因在EST数据库中却过量存在。虽然可在起始mRNA或由它合成双链cDNA时进行富集，减小cDNA文库，但cDNA文库中仍存在大量高丰度的cDNA克隆。因此，一个理想的cDNA文库必须去除或尽量消除多克隆的影响，这就涉及到cDNA文库的前加工技术；均等化（normalization），减少与丰富编码基因相关的cDNA数目；消减杂交（subtractive hybridization），应用序列标记cDNA识别并去除文库中多余的克降，这些技术的发展，使基因识别更依赖于EST技术，甚至可通过该技术获得精确的基因组DNA序列，在华盛顿大学基因组测序中心和Sanger中心的联合攻关下，C.elegans基因组10亿个碱基对的测序工作基本完成。因此ESTs是一系列基因寻找工具中不可缺少后部分，而这些工具都是基因组序列为基础的。EST技术关于基因组DNA序列的其他应用还包括对基因内含子、外显子排列的精确预测，选择性接合事件的识别，反常基因组排列结构的识别等。

4、

基因克隆

利用计算机来协助克隆基因，称为“电子”基因克隆（sillcon cloning），是与定位克隆、定位候选克隆策略并列的方法之一，即采用生物信息学的方法延伸EST序列，以获得基因部分乃至全长的cDNA序列。EST数据库的迅速扩张，已经并将继续导致识别与克隆新基因策略发生革命性变化。

4.1

EST序列的获取

利用计算机来协助克隆的第一步是必须获得感兴趣的EST，在dbEST数据库中找出EST的最有途径是寻找同源序列，标准：长度≥100bp，同源性50%以上、85%以下。可通过数个万维网界而使用BLAST检索程度实现，其中最常用的如NCBI（National Center for Biotechnology Information）的GenBank、意大利Tigem的ESTmachine（包括EST提取者和EST组装机器）、THC（Tentative Human Consensus Sequences）数据库、ESTBlast检索程序——通过英国人类基因组作图项目资源中心（Human Genome Mapping Project Resource Center，HGMP—RC）服务器上访问。然后将检出序列组装为重叠群（contig），以此重叠群为被检序列，重复进行BLAST检索与序列组装，延伸重叠样系列，重复以上过程，直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸，有时可获得全长的基因编码序列。获得这些EST序列数据后，再与GeneBank核酸数据库进行相似性检测，假如凤有精确匹配基因，将EST序列数据据EST六种阅读框翻译成蛋白质，接着与蛋白质序列数据库进行比较分析。基因分析的结果大致有三种：第一是已知基因，是研究对象为人类已鉴定和了解的基因；第二是以前未经鉴定的新基因；第三是未知基因，这部分基因之间无同种或异种基因的匹配。新基因和未知基因将进一步用于生物学研究。

4.2

基因的电子定位

基因的电子定位采用NCBI的电子PCR程序进行检索，寻找EST序列上是否存在序列标签位点（sequence tagged sites,STS），STS作为基因组中的单拷贝序列，是新一代的遗传标记系统，其数目多，覆盖密度较大，达到平均每1kb一个STS或更密集。将寻找到的STS与相应的染色体相比较，即可将此序列定位在该染色体上。

4.3

IMAGE克隆的索取

许多ESTs所对应的cDNA克隆可通过基因组及其表达的整合分子分析（intergrated molecular analysis of genomes and their expression，IMAGE）协定免疫索取，这与电子基因克隆相辅相成，IMAGE协定由美国LLNL国家实验室主持，宗旨是共享排列好的cDNA文库中的克隆重，大规模的EST测序项目如Merk&Cow公司投资的人类ESTs项目等都加入了IMAGE协定。当研究者通过另外的途径得到基因的部分序列，并通过同源性检索后发现该片段与加入IMAGE协定的EST序列高度同源时，便可免费索取其原始克隆，可通过美国的ATCC组织（American Type Culture Collection）索取，从而避免或减轻筛选全长基因的麻烦，以集中精力进行基因的功能研究。

应用

EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比更可能穿越家系与种的限制,因此EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在: (1)用于构建基因组的遗传图谱与物理图谱; (2)作为探针用于放射性杂交; (3)用于定位克隆; (4)借以寻找新的基因; (5)作为分子标记; (6)用于研究生物群体多态性; (7)用于研究基因的功能; (8)有助于药物的开发、品种的改良; (9)促进基因芯片的发展等方面。正是因为EST表现出了这些巨大潜能,使其得到了充分的利用与发展。

结论

人类基因组计划已进入后基因组时代，基因组学的研究从结构基因组学过渡到功能基因组学，利用结构基因组学的同存数据，充分发挥EST技术的优势，将为大规模进行基因识别、克隆和表达分析提供空前的动力，为生物论处学功能的发挥提供广阔的空间。

EST序列百科内容来自于：

简介

原理

序列标签