神秘嘉宾,巨杉数据库联合创始人CTO。神秘嘉宾表示大数据本身的概念涵盖了从IT基础架构到上面的业务有很多的层面。从技术的层面来看,数据湖是一个比较好的词汇。 数据湖到底代表什么,很多企业都有数据仓库,把这些数据汇总在一块。它跟传统的数据仓最大的区别就是,传统的数据仓是把有限的数据汇总起来。大数据并不是对传统数据仓的取代,而是一个补充,是把所有大数据汇聚到一个湖里,它强调的是对全量数据所有属性的一个存储,而不单单对于某一些维度的存储。 在数据湖里如果再细看,实际上有两类方式,一类叫做分析类,然后在这个数据里分析出一些报表来。比如说要看整个市民的图,有一些地方要统计一年以来的交易额,另外有一个区域叫做交互区。 在这个区域里面主要做一些实时交互式的查询和检索,除了领导整天要看的统计报表里面,要看一些明细数据,当前什么人在什么地方做什么事的时候,这两个数据加在一起统计跟交互构成一个完整的大数据的平台。 整个的近线数据平台的定位,实际上我们把它放在这个位置,是温数据和冷数据的群,实际上说到数据治理,任何一个地方一般把数据分成三种类型,一种叫热数据,可能也是在线的数据仓库比如说所有在线交易的情况。另外有一些ODS或者数仓,这种类型的数据是保存在近线的数据平台,再往前可能两三年前的数据,大家会把它放到一个库里面进行离线的存储叫做冷数据。 我们今天强调的主要是近线平台,数据针对的并不是在线数据,而是温数据和冷数据。它的好处有几个,第一个好处就是这种系统在上线的时候非常的安全,比如说领导决定做一个项目的时候,可能第一个考虑这个东西会不会对已有的业务产生影响,这些系统已有的业务是在热数据区,而我们新的近线数据平台是在一个温数据和冷数据区,它对于热数据没有影响。 其次大家关心的是这个东西的投入成本,一般一个项目一上来投入几千万做这个事,大家都会比较担心。但是我们的经验里面类似于这种类型,针对于近线数据和离线数据的系统投入相对比较少,并且它的见效非常快。它的效果我们把它分成两个类型,第一个类型我们把它叫做离线数据的近线化,离线数据就是说原本的数据存到代库里面,我们想查的时候很麻烦,这些数据我们通过大数据把它进行在线化。 第二个叫做近线数据的瘦身,可能很多企业都在用数据仓库,每年扩容需要付这些厂商一大笔钱,是不是使用大数据,相对比较低廉的成本进行运算呢,这个就是第二个近线数据做瘦身。