大型基因組數據庫對于科學家尋找同疾病相關的遺傳變異來說是必不可少的。不過,對于貢獻了DNA的人來說,這會帶來隱私風險。一項2013年的研究顯示,黑客能利用網絡上公開可用的信息,從被匿名的基因組數據中辨別出人們的身份。
為解決這些擔憂,一個由美國麻省理工學院計算機科學家Bonnie Berger和Sean Simmons研發的系統利用了被稱為差分隱私的方法。它通過向用戶查詢結果中添加少量噪音或者隨機變異,模糊捐贈者的身份。研究人員在最新一期的《細胞系統》雜志上發表了他們的成果。
該系統會計算研究人員想要的統計數值,比如一個遺傳變異同某種特定疾病存在關聯的幾率,或者同一種疾病最相關的5個遺傳變異。然后,它向結果中添加隨機變異,并且返回本質上帶有輕微錯誤的信息。比如,在對同某種疾病相關的前5個遺傳變異的查詢中,系統可能會產生前4個遺傳變異以及第6個或第7個變異。
用戶并不知道哪個查詢結果更正確,但仍能利用這些信息。只是對于想弄清楚數據背后的患者信息的人來說,變得更加困難了而已。
“當你在系統中加入一點點噪音,從很多方面來說,它同數據開始自帶的噪音并沒有太大的不同。”田納西州范德堡大學計算機專家Bradley Malin表示,“在一定程度上,它仍然是可靠的。”幾十年來,美國人口普查局和勞工部一直通過這種方式向它們的數據中添加噪音。
只要數據庫足夠大——含有來自幾千或更多人的信息,同時研究人員保持在限制其能詢問問題數量的“隱私預算”之內,利用此項技術的數據集中的個人隱私便不會受到侵害。用戶將無法詢問一個基因組中的幾百個或上千個位置。
受該技術保護的數據庫可被立即搜索到,而目前要獲準調用由包括美國國立衛生研究院在內的各機構管理的數據庫可能需要數月。
Simmons和Berger表示,即便帶有噪音,在詢問一些有針對性的問題時,該系統提供的答案仍然足夠有用。“它主要被用于獲取通過其他途徑可能無法接觸到的數據集。”Simmons介紹說。
比如,如果分析一個小型數據集的研究人員發現了同某種疾病存在關聯的遺傳變異,該系統能讓他們利用規模大很多且通過其他方式無法獲取到的數據集證實這一關聯。它還能讓研究人員預覽某個數據集,從而在進行耗費時間的完整獲取申請流程前判定其有用程度。
“我認為,這是一項極其卓越的數學工作。”哥倫比亞大學計算生物學家Yaniv Erlich表示,“理論上講,它很不錯。不過,從實際的角度來說,我并不確定它會派上用場。”
Erlich的一個擔憂來自該系統的問題限制。在他看來,現在研究人員想要的是分析同某種疾病存在關聯的前10個或100個遺傳變異,而不是前5個。
與此同時,Erlich 表示,“人們并不喜歡在其數據中加入噪音”,因為產生這些信息需要經過很多艱苦的工作。噪音問題還會對基于此類信息的臨床決策產生令人不安的影響。
Malin認為,該系統會在查詢結果中添加大量噪音的可能性非常小。“這讓人們感到有點不自在。”
不過,Simmons正試圖改進這一系統,在實現相同的隱私保護效果的同時盡量添加較少的噪音。Berger則同哈佛大學—麻省理工學院博德研究所合作,確定減少隱私風險的方法。這或許可通過利用差分隱私技術實現。如果該研究所決定在更大范圍內釋放來自其數據庫的基因組數據,這將會派上用場。
“最終,這就是我們真正關心的事情。”Simmons表示,“讓這些數據盡可能被更加廣泛地獲取到。
(
將來商城www.abxsw.org)