作者
关涛、李睿博、孙莉莉、张良模、贾扬清(from阿里云智能计算平台)
黄波、金玉梅、于茜、刘子正(from新浪微博机器学习研发部)
头图
CSDN下载自视觉中国
编者按
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMRDataLake的湖仓一体方案做一介绍。
大数据领域发展20年的变与不变
1.1概述
大数据领域从本世纪初发展到现在,已经历20年。从宏观层面观察其中的发展规律,可以高度概括成如下五个方面:
1.数据保持高速增长-从5V核心要素看,大数据领域保持高速增长。阿里巴巴经济体,作为一个重度使用并着力发展大数据领域的公司,过去5年数据规模保持高速增长(年化60%-80%),增速在可见的未来继续保持。对于新兴企业,大数据领域增长超过年%。
2.大数据作为新的生产要素,得到广泛认可-大数据领域价值定位的迁移,从“探索”到“普惠”,成为各个企业/政府的核心部门,并承担关键任务。还是以阿里巴巴为例,30%的员工直接提交大数据作业。随大数据普惠进入生产环境,可靠性、安全性、管控能力、易用性等企业级产品力增强。
3.数据管理能力成为新的