如果你曾經看過《犯罪現場》這樣的罪案劇,你可能會想起一個場景:法醫通過電腦對數千個DNA片段進行搜索,從而匹配出犯罪現場和犯罪嫌疑人。
雖然這個過程在現實生活并不像電視劇那樣,但是主要思路是一樣的。
遺傳學本質上是一門比較科學。無論你是想確認一名嫌疑犯、一種基因疾病還是一名失散已久的親屬,都需要將一個基因組與另一個基因組進行比較,從而在數十億個DNA中發現相似和不同。

雖然確認失蹤人員或者犯罪嫌疑人的過程通常只會涉及到一個人的幾個遺傳片段,但是像識別某種疾病的基因變異這樣的問題,往往需要大量的數據處理。盡管目前很多前沿的研究都是為了幫助科學家們做到這一點,但對所有這些數據都做到充分的定義還面臨著巨大的挑戰。
這也正是人工智能所要解決的問題。
本周,谷歌推出了一款名為DeepVariant的程序,可以通過深度學習來拼湊一個人的基因組并且更準確地識別出DNA序列中的突變。
這個技術在谷歌中曾經用來識別一張照片是貓還是狗,在這里DeepVarient利用了相同的技術解決了DNA分析領域的一個重要問題。
現代DNA測序儀可以執行高通量測序,讀取出的不是完整的DNA序列,而是重疊的短片段。然后將這些片段與另一個基因組進行比較,從而將它們拼湊在一起,進行變異識別。
但是這項技術很容易出錯,科學家也很難排查出這些錯誤以及小突變。這些小突變非常重要,它們可以提供重要的證據,比如說,疾病的根本原因。區分哪些堿基對是錯誤的,哪些是正確的,這被稱為“變量調用”。
其實已經有一些工具可以幫助科學家做到這一點。最廣泛使用的是GATK,這是一種人工設計的算法,可以將統計數據應用到測序機器最常出錯的地方。
然而,DeepVariant利用神經網絡技術來構建比以往任何技術都更精確的程序。去年,這項技術在FDA大賽中獲得了第一名。
神經網絡之所以如此命名,是因為它們的工作方式有點類似于神經元在大腦中的方式,每一層網絡都逐級處理著更為復雜的工作。
為了利用圖像識別技術來建立一個精確的DNA序列,谷歌團隊將DNA測序數據轉化為了一個圖像。例如,構成遺傳密碼的As、Ts、c和Gs,就會以紅色的形式出現。研究人員隨后對數百萬份基因組測序和高通量讀取技術進行了研究,并教會了這個程序哪些東西更重要,哪些可以忽略。
由此產生的算法可以比以往任何系統都更準確地對錯誤進行排查。最初,這些圖像僅由三種顏色組成,或三層數據。不過,本周發布的最新版本包含了7種,使其可以更加精確地表達。這個程序目前是作為開源軟件發布的,外部研究人員可以使用以及繼續進行程序強化。
DeepVariant絕不是100%準確的。但它的成功代表了機器學習對基因學的影響?;蚪M數據的規模和復雜性是巨大的。機器可能正是我們需要弄明白的東西。
責任編輯:黃焱林
相關推薦
ARM產品路線圖,如何看待英特爾攜手谷歌?
在微軟宣布下一代操作系統Windows8開始支持ARM架構后,昔日的盟友英特爾也開始攜手谷歌,認真的做起了Android系統優化。這對親密兄弟在移動互聯時代的漸行漸遠,從一個側面印證了目前該行業正經歷著前所未有的巨變。而作為在移動和嵌入式領域占據壓倒性優勢的ARM,是如何看待整個業界的現狀和發展趨勢的。日前,本刊記者就相關熱點話題采訪了ARM中國區移動業務市場經理王駿超。最近移動互聯領域發生了很多變化,眾多軟件廠商、互聯網服務商紛紛進軍該領域,最具代表性的就是谷歌宣布收購MOTO。ARM怎么看待這些變化?這些變化給ARM的整體戰略帶來哪些機遇?的確如此。傳統的互聯網廠商,現在越來越看好移動互聯
美滿電子助力全球首款集成IPTV機頂盒的谷歌電視
全球整合式芯片解決方案的領導廠商美滿電子科技近日宣布,韓國LG集團子公司、電信服務提供商LGU+選擇屢獲殊榮的MarvellARMADA1500系統芯片平臺(88DE3100),用于其新一代IPTV谷歌電視機頂盒。LGU+機頂盒能提供卓越的在線流媒體播放性能,為韓國的LGU+消費者開啟了互聯家庭娛樂的全新時代。Marvell聯合創始人戴偉立女士表示:“Marvell公司與谷歌和其他關鍵合作伙伴在廣播和云內容交付領域成績斐然的合作,以及進駐韓國服務提供商LGU+的突破性機頂盒產品,再次證明了Marvell在推動谷歌電視及智能電視發展中的領導地位。我相信,LGU+機頂盒作為家庭中強大的數字控制中心
聯發科將向谷歌亞馬遜推新四核平板芯片
【手機中國 平板】據臺灣媒體報道,業內人士透露,聯發科除向筆記本和平板品牌廠商推銷其基于ARM big.LITTLE架構的MT8135處理器外,還準...