阅读
小说
故事
散文
读者
国学
诗集
书屋
学生阅读
您现在的位置: 爱书坊 >> 文摘 >> 点滴 >> 正文 用户登录 新用户注册
大数据:越大越有价值吗           ★★★ 【字体:
【爱书坊】 大数据:越大越有价值吗
大数据:越大越有价值吗

  孟晓犁

  大数据这两年一直是热词。发展中的大数据确实带来了很多有用信息,但是所谓大数据,并非越大越有价值。

  比如,在美国做一个1000人的抽样调查,这个调查若是在中国做,要达到同样的精度,需要抽取多少人?美国的人口是3.2亿人,中国的人口是美国的4倍多一点。每次我在大学做讲座问到这个问题时,只有10%的人能说出正确答案:仍需抽样1000人。绝大多数人认为,抽样数必须大于4000。

  为什么呢?最简单的比喻是:喝汤时,要确定汤的咸淡,大多数人只需要尝几口,并不需要把汤全部喝完。这个判断的准确性取决于这碗汤的均匀度。喝汤前把整碗汤搅拌一下,然后品尝几口,这就是我们所说的随机取样。无论是一小碗汤还是一大桶汤,只要搅拌均匀,尝几小口就够了。同样,去医院验血时,每个人不论是胖是瘦,小孩还是大人,医生都只会抽一点血就可以做出判断。这意味着抽样调查需要有一定的样本,但是一旦超过临界点后,和母体大小的关系是完全可以忽略的。也就是说,大数据再大,只要科学抽样,哪怕只有百分之零点零零几的均匀抽样,效果也可以比95%不均匀的数据好。

  所谓大数据,也不能光看绝对量,并非数据越多结果越可靠。以现在最热的个性化治疗为例。如果一种药对95%的人有效,但对我没有用,那这95%的数字对我而言便毫无意义。

  一个真实的例子是,在20世纪80年代,英国有一本杂志登了两种治疗肾结石的方法。文章摘要宣称方法A治疗肾结石,成功率是78%;用方案B的话,成功率是83%。在没有其他信息的情况下,任何人都会认为B方案的治疗效果更好。但是仔细阅读那篇文章,你会发现当研究人员把病人分成大结石和小结石两组时,方案A比方案B在每组里的成功率都要高。

文章录入:爱书小屋    责任编辑:yxpaishufang 
  • 上一个文章:

  • 下一个文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    最新热点 最新推荐 相关文章
    四大名旦的杯中物
    杨宪益的最后十年
    同以笔墨换金钱
    泰戈尔在我家
    一颗肺的历程
    理发记
    她的眼泪为谁流
    耶鲁村官秦玥飞
    开车记
    我煨暖了,你离开的背影
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)