当前位置:松滋物联网+平台 >> 区块链

大数据与乔布斯的癌症治疗肿瘤DNA排序

2019-11-05 00:27:17 来源:松滋物联网+平台 阅读量:9

大数据与乔布斯的癌症治疗 肿瘤DNA排序苹果公司的传奇总裁史蒂夫-乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有

大数据与乔布斯的癌症治疗 肿瘤DNA排序

苹果公司的传奇总裁史蒂夫-乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用,这是23andme报价的几百倍之多。所以,他得到的不是一个只有一系列标记的样本,他得到了包括整个基因密码的数据文档。

对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是,史蒂夫-乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药,也就是乔布斯所说的,从一片睡莲叶跳到另一片上。乔布斯开玩笑说:我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。

全数据模式,样本=总体

在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生,它也可以被视为那个时代的产物。如今,计算和制表不再像过去一样困难。感应器、导航、站点击和twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。

采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变。

然而,采样一直有一个被我们广泛承认却又总有意避开的缺陷,现在这个缺陷越来越难以忽视了。采样忽视了细节考察。虽然我们别无选择,只能利用采样分析法来进行考察,但是在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话,我们会收集所有的数据,即样本=总体。

正如我们所看到的

大数据与乔布斯的癌症治疗肿瘤DNA排序

,样本=总体是指我们能对数据进行深度探讨,而采样几乎无法达到这样的效果。上面提到的有关采样的例子证明,用采样的方法分析整个人口的情况,正确率可达97%。对于某些事物来说,3%的错误率是可以接受的。但是你无法得到一些微观细节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力。正态分布是标准的。生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。

谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联检索记录。分析整个数据库,而不是对一个样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。Farecast的初始系统使用的样本包含12000个数据,所以取得了不错的预测结果。但是随着奥伦-埃齐奥尼不断添加更多的数据,预测的结果越来越准确。最终,Farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说:这只是一个暂时性的数据,随着你收集的数据越来越多,你的预测结果会越来越准确。

12