-
Hadoop :map+shuffle+reduce和YARN分析笔记
今天在公司做了一个hadoop分享,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等。 一 引言1、海量日志数据,提取出某日访问百度次数最多的那个IP算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用...
05月14日[精选文章]浏览:6
-
-
行列视系统架构解析:如何实现工业级低延迟传输
引言在发电行业中,生产过程高度依赖实时监测与控制。随着发电厂规模和复杂度不断提升,数据量呈指数增长,对系统的传输延迟、可靠性和可扩展性提出了更高的要求。行列视系统作为一种新兴的数据传输与可视化架构,能够在保证高吞吐量的同时,实现毫秒级甚至微秒级的低延迟传输,为发电行业的智能化和数字化转型提供了坚实的...
05月14日[精选文章]浏览:6
-
-
-
Spring Boot与传统Spring框架的对比:探索Java开发的新境界
Spring Boot与传统Spring框架的对比:探索Java开发的新境界在Java生态系统中,Spring框架无疑是一个里程碑式的存在。从最初的简单依赖注入容器,到如今覆盖企业级开发方方面面的庞大体系,Spring一直在为开发者们提供强大而灵活的支持。而作为Spring家族的一员,Spring...
04月22日[精选文章]浏览:9
-
-
Apache Spark 内存管理详解_spark的内存模型
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spar...
02月11日[精选文章]浏览:19
-
PySpark源码解析,用Python调用高效Scala接口,搞定大规模数据分析
机器之心专栏作者:汇量科技-陈绪相较于Scala语言而言,Python具有其独有的优势及广泛应用性,因此Spark也推出了PySpark,在框架上提供了利用Python语言的接口,为数据科学家使用该框架提供了便利。...
02月11日[精选文章]浏览:18
-
你还不懂java的日志系统吗 ?_java的日志类
一、背景在java的开发中,使用最多也绕不过去的一个话题就是日志,在程序中除了业务代码外,使用最多的就是打印日志。经常听到的这样一句话就是“打个日志调试下”,没错在日常的开发、调试过程中打印日志是常干的一件事,同时系统正常运行过程中必要的日志打印也是必须的。...
02月11日[精选文章]浏览:19