AI-NGS 單元列表

本單元蒐集了最新的AI-NGS發展趨勢及研究論文

人工智慧於次世代定序(NGS)的應用

隨著科技發展,電腦及其相關產品已然成為現代人生存之必需品,各類機器如何因應消費市場之需求,成為未來之重要趨勢。考量未來情勢之必要,幾乎所有大型IT公司都投入高額資金進行開發、實施人工智慧。

順應發展,人工智慧和機器學習已成為現代資料探勘與大數據分析的主要選擇,透過有效學習和適應性模型,提供各類工程應用有效的解決方式,如:人工神經網路模型、推理型決策演算法、模擬模型、DNA計算、量子計算……等。

人工智慧的學習方式

機器學習是人工智慧的形式之一,讓機器在未針對每中實例進行特定編程的狀態下,學習如何做出決策。從基礎層級來看,多個神經元群聚在一起形成一個神經網路,負責一項學習過程,演算法提供過程所需的規則方針。此處目標是尋找能產生優化成本函數的網路參數解法。對演算法演示和處理一次完整訓練範例來執行訓練。此後,對神經網路演示能夠將輸入數據分類的複雜關係。

學習方式可分為四類:其一,監督式學習,為閉環反饋系統,透過比較系統的實際輸出和預期輸出來調整網路參數,使用一般規則或映射模式做為輸入函數,將受標記的訓練數據映射到其輸出,並將這些數值的差異視為計算誤差的指標,以控制學習過程。其二,非監督式學習,在未將任何預定義於輸入集輸出的情況下執行。用來分類的模式或規則是由演算法自己從訓練中學習而來的。其三,增強式學習,一種採用增強法的學習技術,可以辨識訓練數據集的普遍模式或分類規則,接著將經驗和學習套用至另一個數據集。其四,深度學習,是一種近幾十年來所發展出的方法,允許數據以不同層級的階層方式表示,用來解決可用數據集規模不斷增加等各種問題。

深度學習之應用

深度學習的起源可以回溯到19世紀,多年來成長穩定,但其廣泛應用直到2012年後才開始。隨著產業加強對技術的投資,並且有了高能表現的計算能力、增加的儲存容量和併行計算設備,人工智慧在日常生活中的應用對大眾越來越重要,影響層面極廣。醫療資訊學是資訊科技的應用,包含用以檢驗病歷和報告,以及分析此類大量數據,呈現出其中的複雜交互作用和關聯性。各領域中也可觀察到其實際應用,如:腫瘤學、肝臟病理學、甲狀腺疾病診斷、風濕病學、皮膚病學、心臟病學、神經心理學、婦科學和圍產學等。醫學數據現在面臨嚴重挫折,肇因於尚未能夠提出處理有雜訊和遺失數據的統計方式。因為這個原因,在醫學數據上的人工智慧實驗結果仍然面臨不確定性和誤差值。網路世界的發展趨勢帶來了一種名為「物聯網」的趨勢新系統,其中許多設備互聯,持續彼此分享有用的感知數據和指令,促使這些設備理解外部環境並做出反應。這種技術現在於健康保健、零售業、銀行、製造業、智能家居和個人化用戶應用等廣泛領域創造新機會。

次世代序列中的人工智慧

生物資料庫收錄了收集、策劃和儲存於定義基模中的大量生物資訊,包含了實驗結果、高通量實驗結果、已發表的文獻和計算分析。這些資料庫包含來自廣泛多樣領域的數據,如蛋白質體學、代謝體學、基因體學、微陣列數據分析,以及蔚為最新趨勢的次世代序列數據。次世代序列數據現在也可用於全基因體分析,這無疑為基因體學和蛋白質體學解決了許多問題。這些資料庫可以大致區分成結構資料庫和數列資料庫。核酸和蛋白質序列儲存在序列資料庫中,也稱為主資料庫,而蛋白質結構儲存於結構資料庫中,也被稱為次級資料庫。

次世代定序(Next Generation Sequencing,NGS)或稱深度定序科技,能夠並行讀取多個獨立的DNA片段,從而在幾個小時內鑑別數百萬個鹼基對。近期研究已清楚顯示機器學習技術可有效分析大量基因體數據,並且幫助辨識新的基因功能和調節區域。一個深度人工神經網路包含了一群人工神經元,這群人工神經元可以模擬活體神經元的特性。這些數學模式稱為人工神經網路(Artificial Neural Networks,ANN),能用來解決人工智慧工程在許多不同技術領域上的問題,如:生物學、基因體學、蛋白質體學和代謝體學。

過去十年中,次世代定序技術的潛力已獲得證實,隨著短讀取的產生,處理過程擴大了次世代定序技術,結合從化學到生物資訊學等各種學科的進步,使得基因定序能在合理價格內執行。具體而言,生物資訊學是這一發展過程的基礎。根據不同技術的多重演算法發展,例如散列表、索引和空間種子,將可能優化越來越大的數據集的分析。次世代定序技術可廣泛用於多種不同領域,如癌症研究、人類DNA分析和動物研究。

使用次世代定序技術可以平行讀取多個單獨的DNA片段,從而能夠在幾個小時內鑑定數百萬個鹼基對。所有可用的次世代定序平台都具有共同的技術特徵:克隆擴增的DNA分子或流動細胞中單個空間分離的DNA分子的大規模平行序列。

關於機器學習方法,可以使用監督或無監督的系統。監督式方法需要一組DNA序列(所有遺傳資訊包括基因的起點和終點、剪接位點、調控區等)用於訓練步驟,以構建預測模型。接著,該模型用於尋找與訓練集的基因相似的新基因。只有在已知的訓練序列集可用時,才能使用監督式方法。如果想找到解釋數據的最佳未標記序列集,則使用無監督方法。

人工智慧的未來優勢

機器學習是讓電腦對未來做預測的科學,這代表了人工智慧其中一種基礎領域。深度學習是機器學習的一個分支,基於一組演算法,而以多階層方式組織起來(至少有兩個隱藏層級)。這些演算法通常會提供多個處理階段(訓練、模型擬合、模型評估),階段中經常有複雜的結構並且由一系列非線性轉換組成。近年來,卷積神經網路(CNN)和循環神經網路(RNN)已廣泛用於深度學習,特別是用於辨識蛋白質編碼區、蛋白質與DNA的交互作用、調控區域(例如,啟動子、增強子和多腺苷酸化信號)、剪接位點和功能性RNA基因應用。

目前,人類已走上適應新科技和發展更佳科技之路,並創下歷史記錄。回顧人工智慧研究時,可見自1943年麥克卡倫(McCullouch)和匹茲(Pitts)向全世界提出了人工神經元的概念以來,人工智慧之發展日益精進,並時而推出先進技術,答到令人意想不到的成長。相較於傳統方法,採用機器學習的方法更加準確而強韌可靠。另一方面,人工智慧也有其缺點,我們需要持續尋找改善其設計和應用的方式。在未來的日子裡,人工智慧會持續在尚未探索的領域中找到更廣泛的應用。

參考資料:

Edo D'Agaro(2018).Artificial intelligence used in genome analysis studies .The EuroBiotech Journal.2(2)78-90.
ndrajeet Chakraborty, Amarendranath Choudhury, Tuhin Subhra Banerjee(2017).Artificial Intelligence in Biological Data.Information Technology & Software Engineering.7(4).1-7.

圖片來源:

Pixabay

Related Posts: