华大集团成立于1999年,是享誉全球的基因组学研发机构。通过遍布全球的分支机构以及产业链各方的广泛合作,华大集团正在将前沿的多组学科研成果应用于医学健康、农业育种、资源保存等领域,推动基因科技成果转化,实现基因科技造福人类。目前,华大基因的业务已经覆盖100多个国家和地区,包括境内31个省市自治区的2000多家科研机构和2300多家医疗机构,其中三甲医院300多家;欧洲、美洲、亚太等地区合作的海外医疗和科研机构超过3000家。
作为享誉全球的基因组学研发机构,华大集团面对的是全球各地需要进行基因测序及相关服务的客户。基因测序会产生大量的基因数据,以小麦的基因测序为例,一粒小麦的基因数据是16GB,再乘上数以千计的样本,整个数据量就变得非常恐怖,而如何把庞大的数据交付给客户就成了难题。早期,华大基因采用硬盘传递的方法,即将基因数据导入硬盘,然后快递给客户,客户收到后再将数据导入自己的系统。在交付数据的过程中,因为涉及数据转换等各种问题,这种做法容易耽误交付周期,显得非常低效。
此外,传统模式下,华大基因需要通过购置和自建计算、存储集群,并雇佣大量生物信息从业人员来获得基因数据分析能力,由此需要付出集群建设、维护、折旧和专业人员雇佣的巨大成本。即便如此,面对业务高峰时依然会出现捉襟见肘的情况,对业务进度有比较大的影响。“分析基因数据的时候同事们经常会遇到一件事,就是自己的计算资源不够用了,任务老是要排队了。”深圳华大基因股份有限公司BGI Online&大数据专项负责人金鑫说。
在面对数据交付和控制成本的难题时,华大基因并不是没有寻找过其他应对办法,早在2012年,华大基因就曾尝试通过搭建私有云的方式来解决,然而开发过程并不理想。由于当时的国内对云计算还比较陌生,华大基因需要自己解决很多技术难题,这显然不是华大基因所擅长的。因此到了2014年,华大基因开始与AWS合作,研发工作顺利展开。2015年,BGI Online正式上线。
全球化的覆盖
“我们在海外布局,一定要找卓越的合作伙伴,AWS在全球云计算的地位有目共睹。所以我们选择了AWS。”金鑫说。凭借深厚的技术积累,AWS已经在全球 16 个地理区域内运营了 42 个可用区,每个可用区都有独立的冗余电源、联网和连接等,确保用户可以将业务无缝拓展至全球。通过AWS,华大基因可以在离客户最近的地方开展基因测序工作,基因数据的分析和传递都在云上完成,只需授权海外客户访问这些数据即可,无需下载就能执行进一步的分析,极大提升了数据流通的效率。
丰富的行业经验
对于华大基因与AWS的合作,金鑫这样表示:“在BGI Online搭建的过程中,AWS团队起到非常大的作用,因为在美国他们已经有这样的行业经验,对这个行业的理解比很多其他厂商要深,所以我们一开始就得到了AWS团队的支持和建议。并且通过AWS广泛的行业资源,我们接触了不少同行业的公司,也与他们展开了合作,这对我们的业务发展是非常有帮助的。”
企业级的支持服务
AWS为用户提供了不同级别的技术支持服务,在架构设计、开发、运维等各个环节为用户提供全方位的支持。华大基因在做100个人的全基因组分析项目时,需要用到200台Amazon EC2和400TB的存储,远远超过云平台的默认限制。当华大基因向AWS提出需求后,很快就得到了回应。AWS将华大基因的Amazon EC2限制提高到1000台,存储限制提高到400TB,同时提供了中文的技术支持服务。依靠AWS强大的计算资源和存储能力,华大基因顺利实现了17个小时内完成100个人的全基因组分析的目标。“如果是以前放在华大基因的线下去做,每个人差不多都得分析3到5天,”金鑫说。
目前,华大基因的生物信息数据分析平台——BGI Online已经构建在云上,所使用的AWS服务包括Amazon EC2、Amazon S3、Amazon RDS、Amazon Config等。
作为全球著名的的基因组学研发机构,华大集团在使用AWS中获得了实实在在的好处:获得更多的商业机会、推动生命科学产业发展。
获得更多的商业机会
在AWS按需付费的模式下,计算完成后资源自动释放,不再产生费用,遇到业务高峰时也能从容应对,用更少的费用撬动更大的计算能力。并且,硬件设备的运营和维护也无需由华大基因负责,节省了大量人力成本。此外,借助AWS强大的计算能力,华大基因获取基因数据的效率也大幅提高,以往进行一个人的全基因组分析需要将近一周才能完成,成本大于500RMB。而在BGI Online上,1-2天就能完成一个人的基因组分析,还能并行执行上百人的分析任务,成本有望低于100RMB。效率提升的同时费用也在降低,无疑为华大基因带来的更多的商业机会。
推动生命科学产业发展
对华大基因来说,传统的离线计算方式远离了用户,使得商业模式难以取得突破,基因数据分析的价值难以得到充分体现。而华大集团作为生命科学领域的领导者,需要想得更远,更前瞻,去引领生命科学产业的发展,BGI Online因此诞生。BGI Online是一个基于AWS的PaaS平台,除了华大基因自己使用外,也允许第三方使用BGI Online进行数据分析,并开发第三方工具。通过BGI Online,华大基因正在跟全球客户、合作伙伴一起,打造一个开放包容的基因生物学研究生态,分享数据,分享成果,加速生命科学产业发展。
若要了解关于 AWS 如何帮助满足基因组科研需求的详细信息,请访问:http://thinkwithwp.com/genomics/。