一、什么是大数据
在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。
梳理海量数据的核心技术:
- 海量数据的储存(分布式)
- 海量数据的运算(分布式)
这些核心技术的实现是不需要用户从零开始造轮子的储存和运算的都已经有大量的承受的框架来用。
储存框架:
- HDFS–分布式文件储存系统
- HBase–分布式数据库系统
- Kafka – 分布式消息缓存系统(实时流式数据处理场景中应用广泛)
运算框架:(要解决的核心问题就是帮用户将处理逻辑在许多机器上并行执行)
- Hive – 数据仓库工具:可以接收SQL,翻译成mapreduce或者spark程序运行
- Flume – 数据采集
- Sqoop – 数据迁移
- Elisticsearch – 分布式的搜索引擎
…
换个角度说,大数据是:
- 有海量的数据
- 有海量的数据进行挖掘的需求,有对海量数据进行挖掘的工具,如Hadoop、spark。
大数据在现实生活中的具体应用
数据处理测最典型应用:公司的产品运营情况分析
电商推荐系统:基于海量的浏览行为,购物行为数据,进行大量的模型的运算,得出各种推荐结论,一共电商网站页面来为用户进行商品推荐。比如猜你喜欢的商品。
精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,给用户贴上各种属性的标签,然后分类,就可以为广告主进行有针对性的进准的广告投放。比如:给电脑极客推荐推荐顶级的鼠标、键盘;也可以给对价格不敏感的用户推荐价格比较昂贵的产品,也就让人唾弃的大数据杀熟。