阿斯利康制藥公司通過(guò)MongoDB加速研發(fā)
去年,制藥巨頭阿斯利康 (AstraZeneca) 啟動(dòng)了一項(xiàng)雄心勃勃的計(jì)劃,利用下一代基因組測(cè)序開(kāi)發(fā)藥物來(lái)對(duì)抗包括癌癥在內(nèi)的各種疾病。
該技術(shù)創(chuàng)造了一種合成版本的信使 RNA,有助于在細(xì)胞中制造蛋白質(zhì)。如果成功,這些蛋白質(zhì)可以對(duì)抗癌癥等疾病。
不幸的是,這種基因組測(cè)序需要大量的計(jì)算能力。正如阿斯利康 (AstraZenaca) 研發(fā)信息架構(gòu)師 Jason Tetrault 最近解釋的那樣,分析 88 個(gè)完整的人類(lèi)基因組需要 15,000 小時(shí)和 171 TB 的數(shù)據(jù)。分析一個(gè)人類(lèi)基因組可能需要四天時(shí)間。
幸運(yùn)的是,遺傳學(xué)的突破與計(jì)算能力的飛躍同時(shí)發(fā)生。特別是 MongoDB 的跨平臺(tái)、面向文檔的數(shù)據(jù)庫(kù)已經(jīng)到了大規(guī)模處理這些數(shù)字的地步。“我會(huì)將 MongoDB 納入極具顛覆性的技術(shù)陣營(yíng),”Tetrault 說(shuō)。“任何能幫助我們加快步伐以幫助更快地找到東西的東西都很棒。”
對(duì)于 Tetrault 來(lái)說(shuō),基因組測(cè)序是非結(jié)構(gòu)化數(shù)據(jù)挑戰(zhàn)的典型例子。AstraZeneca 選擇 MongoDB 是因?yàn)槠湮臋n存儲(chǔ)能力。然后,公司提供午餐并學(xué)習(xí)教育員工。“當(dāng)然是午餐和學(xué)習(xí),”他說(shuō)。“每個(gè)人都會(huì)出現(xiàn)以獲得免費(fèi)午餐。”
示例還有助于讓員工參與進(jìn)來(lái)。Tetrault 指出,Craigslist和MTV等公司使用 MongoDB 來(lái)跟蹤和整理他們的海量數(shù)據(jù)。Tetrault 說(shuō),去掉這些名字“真的打開(kāi)了討論……這是一個(gè)‘哇哦’的時(shí)刻。”
也許讓每個(gè)人都加入的最有說(shuō)服力的策略是展示 MongoDB 如何相對(duì)較快地取得有用的結(jié)果。“找到困難的事情,讓它變得容易,”他說(shuō)。
阿斯利康的實(shí)驗(yàn)包括提取其所有化合物的 10% 并從其不同的數(shù)據(jù)庫(kù)系統(tǒng)中提取信息。使用 MongoDB,該公司能夠?qū)Υ蠹s 500,000,000 種化合物進(jìn)行 Tanimoto 比較。“所有這些,都在我的桌子底下,”Tetrault 說(shuō)。
盡管在這個(gè)過(guò)程的早期,Tetrault 說(shuō)他很高興阿斯利康可以使用 MongoDB 來(lái)幫助對(duì)抗癌癥。“我正在為癌癥研究人員提供支持。我們的研究人員正試圖找出哪種藥物對(duì)特定腫瘤類(lèi)型最有效。” Tetrault 表示,通過(guò)更好地掌握數(shù)據(jù),阿斯利康可以追蹤它以前從未注意到的鏈接和模式。“也許這對(duì) 10% 的肝癌有效,但哇,這種肺癌實(shí)際上具有相同的生物標(biāo)志物。這就是我想問(wèn)的問(wèn)題,也是我對(duì)大數(shù)據(jù)技術(shù)感興趣的原因。”