生物信息學

跳轉到: 導航, 搜索
人類X染色體圖譜

生物信息學英語:bioinformatics)利用應用數學、信息學、統計學和計算機科學的方法研究生物學的問題。目前的生物信息學基本上只是分子生物學與信息技術(尤其是網際網路技術)的結合體。生物信息學的研究材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模擬)。目前主要的研究方向有:序列比對、基因識別基因重組蛋白質結構預測基因表達蛋白質反應的預測,以及建立進化模型。

生物學技術往往生成大量的嘈雜數據。與數據挖掘類似,生物信息學利用數學工具從大量數據中提取有用的生物學信息。生物信息學所要處理的典型問題包括:重新組裝在霰彈槍定序法測序過程中被打散的DNA序列,從蛋白質的胺基酸序列預測蛋白質結構,利用mRNA微陣列或質譜儀的數據檢驗基因調控的假說。

某些人將計算生物學作為生物信息學的同義詞處理;但是另外一些人認為計算生物學和生物信息學應當被當作不同的條目處理,因為生物信息學更側重於生物學領域中計算方法的使用和發展,而計算生物學強調應用信息學技術對生物學領域中的假說進行檢驗,並嘗試發展新的理論。

生物信息學可以定義為對分子生物學中兩類信息流的研究[1]

麥可·沃特曼(又譯:麥克·沃特曼)教授率先將數學和計算方法引入生物學研究,在生物信息領域有許多開創性的貢獻,被譽為「生物信息學之父」。 麥克·沃特曼教授是計算生物學奠基人之一,是國際計算生物學領域的重要領軍人物。他致力於將數學、統計、計算機科學應用於各種分子生物學問題中,開闢了多個重要研究方向。他與Temple Smith發展的Smith-Waterman演算法奠定了生物信息學演算法的基礎,他與Eric Lander發展的生物序列映射數學模型成為人類基因組計劃的重要理論基石,同時,他的工作在數學界和計算機領域也有著廣泛和深遠的影響。2008年起,沃特曼教授受聘為清華大學講席教授,領導由多位海外傑出科學家組成的清華大學生物信息學與系統生物學講席教授組,為清華大學乃至中國的生物信息學學科發展作出了突出貢獻。2013年獲得中華人民共和國友誼獎。

目錄

主要研究方向

序列分析

1977年,噬菌體Φ-X174成為第一個被完整測定基因組序列的生物體。自此以後,越來越多生物體的DNA序列被人類測定。通過對這些序列的分析,人們希望獲知其中對應蛋白質編碼的基因和基因調控序列。不同物種間的基因比對既能夠解釋和預測他們蛋白質的功能的相似性,又能夠揭示不同物種間的聯繫。由於數據量巨大,依靠人工分析DNA序列早已變得不切實際,這使得人們不得不採用計算機分析數千種生物體的數十億個核苷酸組成的DNA序列。由於DNA序列中普遍存在變異現象,這些計算機程序需要識別大量相關但是不完全相同的序列。即便是在DNA測序的過程中,也存在著不確定的因素。在DNA測序的霰彈槍定序法(The Institute for Genomic Research依此技術測定了第一個細菌的基因組)中,完整的DNA鏈被打散為成千上萬條長約600到800個核苷酸的DNA片段。這些DNA片段的兩端相互重疊,只有依照正確的順序組合,才能還原為完整的DNA序列。對於較大的基因組,霰彈槍定序法能夠迅速的測定DNA片段的序列,但將它們組裝起來的工作則相當複雜。在人類基因組計劃中,該基因重組過程花費了幾個月的CPU時間(on a circa-2000 vintage DEC Alpha computer)。由於現今幾乎所有基因序列均由霰彈法測定,基因重組演算法是信息生物學研究的重點課題。

基因組中並不是所有的核苷酸都構成基因,所以序列分析的另一個研究課題是對基因組中的基因和基因調控序列進行自動識別。在較高等的生物體中,DNA序列的大部分並沒有明顯的作用。但是,這些所謂的「垃圾DNA」卻可能具有未被識別的功能。

基因組注釋

基因組學中,對基因和其他生物特徵的標註稱為基因組注釋。1995年,Owen White(在1995年完成的人類首次為獨立的生物體——流感嗜血桿菌——測序的工作中,他是組員之一)設計出了第一套基因組注釋軟體系統。該系統能夠自動識別基因、轉錄基因和其他生物學特徵,並能夠初步的分析它們的功能。大多數現今的注釋系統的與之類似,但用以分析DNA序列的軟體在不斷進化之中。

在尋找基因和致力於發現新蛋白的努力中,人們習慣於把新的序列同已知功能的蛋白序列作比對。由於這些比對通常都希望能夠推測新蛋白的功能,不管它們是雙重比對還是多序列比對,都可以回答大量的其它的生物學問題。舉例來說,面對一堆搜集的比對序列,人們會研究隱含於蛋白之中的系統發生的關係,以便於更好地理解蛋白的進化。人們並不只是著眼於某一個蛋白,而是研究一個家族中的相關蛋白,看看進化壓力和生物秩序如何結合起來創造出新的具有雖然不同但是功能相關的蛋白。研究完多序列比對中的高度保守區域,我們可以對蛋白質的整個結構進行預測,並且猜測這些保守區域對於維持三維結構的重要性。

顯然,分析一群相關蛋白質時,很有必要了解比對的正確構成。發展用於多序列比對的程序是一個很有活力的研究領域,絕大多數方法都是基於漸進比對(progressive alignment)的概念。漸進比對的思想依賴於使用者用作比對的蛋白質序列之間確實存在的生物學上的或者更準確地說是系統發生學上的相互關聯。不同演算法從不同方面解決這一問題,但是當比對的序列大大地超過兩個時(雙重比對),對於計算的挑戰就會很令人生畏。在實際操作中,演算法會在計算速度和獲得最佳比對之間尋求平衡,常常會接受足夠相近的比對。不管最終使用的是什麼方法,使用者都必須審視結果的比對,因為在此基礎上作一些手工修改是十分必要的,尤其是對保守的區域。

計算進化生物學

進化生物學研究物種的起源和演化。引入信息學到進化生物學中,使得研究者能夠:

未來的研究工作包括重建業已相當複雜的進化樹

計算進化生物學常常與採用遺傳演算法的計算機科學相混淆。後者受到生物進化原理的啟發,發展出一套軟體用於改進配方、演算法、集成電路設計等等。

生物多樣性的度量

對一個特定的生態系統,小到一層生物膜、一滴海水、一鏟泥土,大到整個地球,其中全體物種的基因組成分可被定義為這個生態系統的生物多樣性。搜集各物種的名稱、描述、分布、遺傳信息、地位、種群大小、棲息地,和各生物體間的相互作用等信息,可以建立一個資料庫。有專門的軟體用於搜尋、分析和可視化這些信息,更重要的是,它們還能夠幫助人們相互交流這些信息。計算機能夠模擬相應的模型,以計算種群動態演變,遺傳健康狀態等等。

該領域的一個重要前景是為瀕危物種建立基因銀行,即將各物種的基因組信息保存下來。這樣即便在將來這些物種滅絕了,人類也可能利用它們的基因組信息重新創造出它們。

蛋白質結構預測

蛋白質結構預測是生物信息學的重要應用。蛋白質的胺基酸序列(也稱為一級結構)可以容易的由它的基因編碼序列獲得。在絕大多數情況下,在蛋白質的原生環境中,其結構由它的胺基酸序列唯一的決定。蛋白質的結構對於理解蛋白質的功能十分重要。這些結構信息通常被稱為二級、三級、四級結構。目前尚沒有普遍可行方案實現這些結構的準確預測;大多數方案為啟發式的。

同源性是生物信息學中的一個重要概念。在基因組的研究中,同源性被用以分析基因的功能:若兩基因同源,則它們的功能可能相近;在蛋白質結構的研究中,同源性被用於尋找在形成蛋白質結構和蛋白質反應中起關鍵作用的蛋白質片斷。在一種被稱為同源建模的技術中,這些信息可與已知結構的蛋白質相比較,從而預測未知結構的蛋白質。目前為止,這是唯一可靠的預測蛋白質結構的方法。

人類血色素和豆類血色素間的相似性是以上方法的一個實例。兩種血色素有相同的功能,均能夠在各自的生物體內運輸氧氣。儘管它們的胺基酸序列大不相同,它們的蛋白質結構幾乎一樣。

蛋白質表達分析

通過蛋白質微陣列技術或高通量質譜分析對生物標本進行測量所獲得的數據中,包含有大量生物標本內蛋白質的信息。生物信息學被廣泛的應用於這些數據的分析。對於前者,生物信息學所面臨的問題與RNA微陣列數據分析中遇到的問題相似;對於後者,生物信息學將所獲得的大量質譜數據與通過已知蛋白質資料庫預測的數據進行比較,並使用複雜的統計學方法進一步分析。

比較基因組學

比較基因組學的核心課題是識別和建立不同生物體的基因或其他基因組特徵的聯繫。這些跨基因組的聯繫使得我們能夠跟蹤基因組的進化過程。基因組進化由多個不同層次的事件完成。在最低的層次,單個核苷酸上發生了點變異。在較高的層次,大的染色體片段經歷了複製、橫向遷移、逆轉、調換、刪除和插入等過程。在最高的層次上,整個基因組會經歷雜交、倍交、內共生等變異,並迅速產生新的物種。

基因表達分析

多種生物學技術可以用於測量基因的表達,如DNA微陣列表達序列標籤(expressed sequence tag),基因表達連續分析(serial analysis of gene expression),大規模平行信號測序(massively parallel signature sequencing),多元原位雜交法(multiplexed in-situ hybridization)等。上列所有方法均嚴重依賴於環境並會產生大量高噪聲的數據。生物信息學致力於發展一套統計學工具以從中提取有用的信息。

調控分析

調控是指當細胞受到外信號刺激之後其內發生的一系列反應過程的總和。生物信息學技術被用於分析調控的各個步驟。例如,基因表達的數據可用於分析基因調控。對於一個單細胞生物體,我們可以用生物晶片技術觀察受到不同外界刺激、處於細胞周期不同狀態的細胞,並將採集到的數據利用聚類演算法分析,以尋找表達相似的基因或樣本。該結果可用於多種深入的分析。

生物系統模擬

系統生物學通過對細胞子系統的計算機模擬,分析這些細胞過程間的複雜聯繫,並將分析結果可視化。例如,人工生命就通過計算機模擬簡單的生物形式,以幫助人類了解進化過程。

在藥物研發方面的應用

生物信息學可用於藥物靶標基因的發現和驗證。有許多資料庫可用來獲得在不同組織在正常/疾病狀態下基因表達的差異,通過搜索這些資料庫,可以得到候選基因作為藥物靶標,特異性地針對某一種疾病。另外,還可根據蛋白質功能區和三維結構的預測來對藥物靶標進行鑒定,以便早期了解所研究蛋白的屬性,預測它是否適用於藥物作用

軟體工具

BLAST(基本局部比對搜尋工具)和FASTA是目前使用得最為頻繁的兩套資料庫搜索程序。它們的功能相近,都是把用戶提交的一個核酸序列或蛋白質序列拿去與指定的資料庫中的全部序列作比較。一般認為,BLAST運行速度快,對蛋白質序列的搜尋更為有效。FASTA運行較慢,對核酸序列更為敏感。也有基於網頁交互的軟體如STING,用於結構生物信息學的分析。

參見

參考文獻

引用

  1. Altman, 1998

書籍

外部連結

參考來源

關於「生物信息學」的留言: Feed-icon.png 訂閱討論RSS

目前暫無留言

添加留言

更多醫學百科條目

個人工具
名字空間
動作
導航
功能菜單
工具箱