遗传学家开始通过互联网进行在线DNA测试
遗传学家和电脑程序员组成的联盟(自称为世界基因组学与卫生联盟)正在开发一种可以在互联网范围内交换DNA信息的协议。研究人员希望他们的工作在医学领域能够起到重要作用,如同Tim Berners-Lee在1989年发明的HTTP协议在互联网中发挥的作用一样。
该组织第一批示范项目中的其中一个项目是简单的搜索引擎。利用这种引擎,可以梳理出存放在包括谷歌的服务器群和英国莱斯特大学等九个位置的成千上万封人类基因组DNA信件。根据该组织(包括人类基因组项目的核心成员在内)的介绍,搜索引擎是DNA网络的开关,最终是将数以百万计的基因联系到一起。
正在开发的技术被称为应用程序接口(API),可以实现不同基因数据库之间的交流。汇集信息可以加快取得发现的步伐,这些发现涉及的方面是通过将疑似存在基因突变的儿童与已确诊存在基因突变的其他人进行配对,确定何种基因能够并帮助医生诊断出罕见的先天缺陷,
在两年前于纽约召开的一次会议上,因为担心基因组数据被锁入专用数据库、受到与患者签订法律许可协议的约束、隐私规则的限制,或者是被想要继续自己的科研工作的科学家控制,50名科学家提出建立该联盟的设想。该联盟将自己定性为继万维网联盟(W3C)之后的有一个监督网络标准的组织。
“这是在创建交换基因信息的互联网语言,”作为该组织领导人之一的圣克鲁兹加州大学基因组研究所科学总监David Haussler说道。
该组织于去年开始推出这款软件,目的是希望——大部分并未实现——任何一位科学家都可以在不触碰技术壁垒或隐私规则的前提下,提出关于由其他实验室掌握的基因组数据的问题。
研究人员认为,基因组解码成本降低(以前约为10000美元,现在快降到2000美元)后,可以生成他们没有做好准备的大量数据。为此,他们必须采取行动。美国医院的电子系统多数被分割成小块,系统之间无法进行交流,他们担心会出现像这些美国医院一样的结局。
基因组数据被孤立的方式已然成为一个问题,原因在于遗传学家需要基础更大数量的人群。他们要使用到10万名志愿者的DNA信息,以此来找出和精神分裂症、糖尿病及其他常见病有联系的基因。
然而,在获得发现方面,即使是这10万份数据也不够大。“你将需要数以百万计的基因组,”剑桥博德研究所副所长暨新组织主席David Altshuler如是说道。
世界基因组学与卫生联盟认为答案在于互联网。网络将向其他科学家的有限数据搜索开放多个数据库。哈佛医学院遗传学家Heidi Rehm认为,利用这一理念,该联盟正致力于将全球最大的关于乳腺群癌基因BRCA1和BRCA2的信息数据库中的多个数据库,以及目前独立的九个数据库(存有导致出现罕见儿童疾病的基因数据)连接到一起。
去年三月份,该组织启动了一项测试,目的是看看科学组织是否愿意共享数据。一项被称为Beacon的成果让某个数据库的所有者将其数据库向极其严格的搜索开放。
“我们不是要发明一项技术壮举;我们要做的是解决人们不愿意共享数据这个问题,”参与接口建立工作的多伦多大学计算机科学系研究生Marc Fiume说道,“这会让你能够进行搜索,但又不会获取或侵犯患者隐私。”
截至目前,有15个数据库与Beacon兼容,Fiume评价称取得了一定的成绩。其中三个数据库存储的是谷歌上有备份的公共基因组,另一个数据归波士顿一家叫做Curoverse的软件公司所有。
Haussler认为未来的协议将会提供逐渐访问更多数据的途径,但是要按照受控的方式访问。科学家将需要注册,甚至是签署法律协议。“如果‘这样可以给我全部的基因组’,你需要为此签一份合约,”他说道。
该联盟正在推行的一项变革是新的所有者同意书。这份文件内规定了志愿者在提交各自的基因组时享有的权力。新的同意书范围比大多数同意书的更广泛,允许“世界各地的研究人员”进行“受控访问”。
同意书内需要承诺研究人员不会识别出参与者,尽管这种DNA比较特别,比如指纹,那也不能保证研究人员会识别出参与者。
和W3C一样,世界基因组学与卫生有为此买单的“主办单位”。根据Altshuler的介绍,截至目前,这些单位包括博德研究所、英国的韦尔科姆基金会桑格学院研究所以及安大略癌症研究所,但是Altshuler拒绝透露每家单位的出资金额。
非营利组织赛智生物网络研究所首席平民官John Wilbanks正在与该联盟合作,同时也是W3C的前任成员。他认为,该联盟的任务比W3C的要更艰巨。
“网络在万维网联盟成立前就已存在了很长时间。这是很大的一个不同之处,”他说道,“网络需要发展,万维网联盟创建的目的是来管理网络,并不是说这个联盟创立了网络。”