-
-
Hadoop :map+shuffle+reduce和YARN分析笔记
今天在公司做了一个hadoop分享,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。 一 引言1、海量日志数据,提取出某日访问百度次数最多的那个IP算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用...
05月14日[精选文章]浏览:5
-
-
行列视系统架构解析:如何实现工业级低延迟传输
引言在发电行业中,生产过程高度依赖实时监测与控制。随着发电厂规模和复杂度不断提升,数据量呈指数增长,对系统的传输延迟、可靠性和可扩展性提出了更高的要求。行列视系统作为一种新兴的数据传输与可视化架构,能够在保证高吞吐量的同时,实现毫秒级甚至微秒级的低延迟传输,为发电行业的智能化和数字化转型提供了坚实的...
05月14日[精选文章]浏览:5
-
-
-
Flink实践|在CDH上运行你的第一个Flink例子
文档编写目的Cloudera Data Flow(CDF 作为Cloudera一个独立的产品单元,围绕着实时数据采集,实时数据处理和实时数据分析有多个不同的功能模块,如下图所示:图中4个功能模块从左到右分别解释如下:1.Cloudera Edge Management(CEM ,主要是指在边缘设备如...
05月14日[精选文章]浏览:3
-
我和SOLR不得不说的故事
1安装部署1.1单节点安装部署本文使用SOLR 4.4.0版本作为研究对象,要求JDK 1.6,tomcat 6。1.1.1下载下载地址http://archive.apache.org/dist/lucene/solr/4.4.0/,分别下载linux版本和windows版本,区别只是打包的方式不...
05月14日[精选文章]浏览:5
-
-