zoukankan      html  css  js  c++  java
  • 转文峰——读《大数据时代》有感

    我在大数据领域已经工作五年多了,可如果一个外行朋友让我给他解释一 下什么是大数据,我还真不好讲。我能说就是海量数据的格式化、传输、存储、查询、展示吗?还是过于抽象。我能说数据量大就叫大数据吗?其实也不一定,一台 机器上的传感器收集到的数据可能每天都有几个TB,但也仅仅是监控了一个机器的状态。而全国各个市一天的苹果价格,可能也只是几MB大小,但它就是一个大 数据的例子。
      
      这本书的观点很鲜明。首先是样本等于总体。在大数据时代以前,如果想要了解某个市场的情况,一般是采用抽样调查的方式,这种方式难免出现偏 差,比如配合调查的人群,可能本身就有倾向性。但在大数据时代,我们直接面向的是总体样本,能够直接分析总体的真实情况,更加客观。过去有两个条件不具 备,一个是数据的采集代价很大,现在通过网络可能直接拿到。比如全国人民今天都关心什么,会在搜索引擎的查询记录里体现出来。第二是计算和存储能力不具 备,成千上万台的高性能服务器才能迅速计算出结果,在以前的计算器年代是搞不定的。
      
      第二个观点是要关联关系而不关心因果性。买了A东西的人很有可能买B东西,可能这两者看似没有什么关联,但尽管把它们放在一起就是了,我们最 关心的是销量,不是吗?弄清楚是怎么一个表象可能比较容易,但是想弄清楚背后的缘由,就需要很大的代价了,在这种快速变化的时代,不妨先利用这种关联性去 产生价值,剩下的慢慢去分析。
      
      我在读这本书的时候,也在思考大数据到底是有什么样的特征?和以前的时代到底有何不同?我觉得是在地域上要具有广泛性,比如开始我说的全国各 个市苹果价格的例子,如果有了这样的信息,你就可以确定苹果运送到哪里能赚更多的钱,考虑的更长远一点是在哪里种苹果最划算。书中还列举了一个所有航班票 价的例子,也是类似的。
      
      在大数据时代,我预测传感器领域会有十足的发展,也许以后传感器无处不在,我们通过传感器获取到各种的数据,基于这些数据能实现一些新的价 值。现在流行的可穿戴设备,只是传感器的一个基本应用。Google的无人驾驶汽车也是一个应用的例子。但传感器时代我相信还没有到来,现在是一个酝酿 期。

  • 相关阅读:
    分享个好的笔记软件:为知笔记
    Mysql的一些常用方法
    从0到1体验Jenkins+Docker+Git+Registry实现CI自动化发布
    【超级详细】使用 PXE+Kickstart 实现无人值守批量部署系统
    Linux杀不死的进程之CPU使用率700%
    Hadoop 从节点的 NodeManager 无法启动
    Phoenix 无法启动报错: java.net.BindException: Address already in use
    CentOS7 配置 SSH监听多个端口方法
    Linux CentOS 防止SSH暴力破解
    Windows出现“引用账户被锁定,且暂时无法登录”解决方法
  • 原文地址:https://www.cnblogs.com/end/p/4158942.html
Copyright © 2011-2022 走看看