自2005年,,,二代测序最先改变遗传学领域的研究。;;;;;;竦眯∥宜郊业娜蜃椴庑虮涞每焖偾蚁喽粤。。遗传信息数据库正在以TB字节的速率增添,,,医生和研究职员迫切需要一种有用的信息筛选要领,,,以寻找某种异常的缘故原由或者为评估患者对治疗步伐的反应提供线索。。
在已往的五年,,,研发DNA搜索引擎的公司如雨后春笋般涌现,,,争相成为研发DNA搜索引擎的第一人。。他们都有差别的战术——有些甚至拥有自己私有的遗传信息数据库,,,可是大大都正致力于链接足够多的遗传数据库,以便用户可以快速识别大宗的种种各样的突变。。大大都公司也研究应用生物学文献增补遗传学信息的搜索算法。。但在早期网络的日子里,,,在谷歌称雄之前,,,没有哪个公司成为显着的赢家。。
创立一个有用的搜索引擎是典范的大数据问题,,, ViaGenetics公司的副总裁迈克尔•冈萨雷斯说,预计本月将重启他们的搜索平台。。在医生或研究职员可以使用数据之前,,,基因组数据必需凭证可读取和可搜索的模式来组织。。迈向目的的第一步是,,,凭证一种称之为“变体识又名堂”或“VCF”的标准名堂存储,,,一小我私家的完整基因组测序数据约100千兆字节,直接接纳原始的数据名堂入库,,,纵然天天只有10个病人的基因组数据,,,数据库也会很快失控。。但VCF文件更紧凑,每个基因只有几百兆字节,有助于研究职员在更短的时间内搜索到他们想要找的特定变异。。与全基因组测序差别,,,VCF文件只给出一小我私家的基因数据在那里偏离了2001年的人类基因组妄想最初体例的基因组标准。。
有了VCF,,,从基因组数据中筛选出精准的突变基因不是搜索引擎公司面临的挑战。。大大都这类公司都集中资源致力于无缝编译从其他网络数据库中增补特定的突变信息,如生物医学研究档案PubMed或种种搜集来的电子医疗纪录。。许多这些工具都用细腻的算法来优化效果的可信度和相关性。。“你希望能够将某个位点的突变信息搜集到一起,,,并迅速作出评估,” 总部位于犹他州的另一家研发基因--搜索引擎的公司Tute Genomics的首席科学官David Mittelman说。。
为了拓展信息关联到一个尚无定论的基因组,,,位于佛罗里达州迈阿密海滩的ViaGenetics公司,,,正在更新他们提供应想举行跨机构协作的研究职员使用的信息平台。。“有了ViaGenetics的工具,,,研究职员可以将他们的数据提供应其他用户,,,其他用户可以看到这些项目,,,请求会见,,,并形成相助,,,”冈萨雷斯说,,,“它资助人们在差别的研究职员和机构间建设毗连点。。这关于没有很普遍的基因组数据库的小型实验室或致力于解码相同的突变的差别大学的研究职员都特殊有用。。
只管基因组—搜索行业现在专注于效劳科学家,但并会纷歧直云云。。Mittelman设想TuteGenomics公司最终可能直接效劳于消耗者。。Mittelman说,人们已经要求相识他们的基因组信息,,,只是为了能更好的相识自己,,,但大大都公司还不以为通俗人是他们的主要客户。。为了实现这样的转变,,,搜素工具将会越发直观和友好。。“使用禁止易诠释的数据或不标准术语的搜索工具保存让人们疑心的可能。。”他说。。隐私也是通俗用户主要体贴的一个方面,,,Tute用户上传的信息并不是永世生涯的,,,Mittelman说,,,可是若是平台提供应公共群体使用,,,就需要有其他的包管。。
另外,,,行业也在向纵深生长,,,ViaGenetics和Tute都希望能够自己运营整个历程,,,从最初的DNA测序到展示给用户最终可搜索的效果。。 “现在剖析息争释基因组数据的市场很疏散,,,就像盘算机行业在1990年月一样,,,其时你不得不去找单独的供应商购置显卡或主板,,,然后试着把它组装在一起,,,“Mittelman说。。“很快这个领域将会整合,就象盘算机行业一经的那样。。