聊聊大数据spark、strom、hive等使用场景

聊聊大数据spark、strom、hive等使用场景

精选文章moguli202024-12-18 13:37:1219A+A-

Spark:拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。数据过于繁杂,并且需要让计算通过迭代,并在内存中,极大地提高效率的场景
Strom:一个分布式实时计算系统,Storm是一个任务并行连续计算引擎。 Storm本身并不典型在Hadoop集群上运行,它使用Apache ZooKeeper的和自己的主/从工作进程,协调拓扑,主机和工作者状态,保证信息的语义。无论如何, Storm必定还是可以从HDFS文件消费或者从文件写入到HDFS。
Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
应用场景:十分适合数据仓库的统计分析。
Hbase:
应用场景: 数据量太大,以至于传统RDBMS无法胜任、
联机业务功能开发、
离线数据分析(数据仓库)

点击这里复制本文地址 以上内容由莫古技术网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

莫古技术网 © All Rights Reserved.  滇ICP备2024046894号-2