Series

Big Data

【两万字总结】Spark 部署与入门
Spark 介绍核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架，类似于 Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入 HDFS，更适用于需要迭代的 MapReduce 算法场景中，可以获得更好的性能提升。例如一次排序测试中，对 100TB 数据进行排序，Spark 比 Hadoop 快三倍，并且只需要十分之一的机器。 Spark 集群目前最大的可以达到 8000 节点，处理的数据达到 PB 级别...
Oct 20, 202115 min read264
Hadoop生态&组件部署大总结
准备下载地址 Apache参考源中科大开源软件镜像https://mirrors.ustc.edu.cn/apache/ 清华大学开源软件镜像站https://mirrors.tuna.tsinghua.edu.cn/apache/ Apache 官方提供镜像https://dlcdn.apache.org/ | Sqoop已不再被 Apache 维护，需要下载请前往GitHub，请参考快捷下载内地址快捷下载 HADOOPhttps://mirrors.us...
Sep 26, 20215 min read24
MapReduce 原理与实践
MapReduce 简介 MapReduce 核心思想 Hadoop MapReduce 是一个编程框架，它可以轻松地编写应用程序，以可靠的、容错的方式处理大量的数据(数千个节点)。正如其名，MapReduce 的工作模式主要分为 Map 阶段和 Reduce 阶段。一个 MapReduce 任务（Job）通常将输入的数据集分割成独立的块，这些块被 map 任务以完全并行的方式处理。框架对映射（map）的输出进行排序，然后将其输入到 reduce 任务中。通常，作业的输入和输出都存储在文件系...
Sep 15, 20216 min read11
Hdfs架构与操作
HDFS 简介 HDFS 架构如同其名称，HDFS （Hadoop Distributed File System）是 Hadoop 框架内进行分布式存储的组件，具有容错性和可扩展性。 HDFS 可以作为 Hadoop 集群的一部分，也可以作为独立的通用分布式文件系统。例如， HBase 就建立在 HDFS 之上，而 Spark 也可以将 HDFS 作为数据源之一。学习 HDFS 的架构和基本操作，对于特定集群的配置、改进和诊断将会有较大的帮助。 HDFS 是 Hadoop 应用程序主要使用的...
Sep 13, 20214 min read87
基于VM搭建伪分布式Hadoop
筹备参考 Centos镜像下载：http://mirrors.aliyun.com/centos/7/isos/x86_64/ Hadoop下载：https://hadoop.apache.org/releases.html JDK下载：https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html VM下载：https://www.vmware.com/products/workstation-pro/wo...
Sep 12, 20211 min read18
基于Docker实现Hadoop完全分布式部署
阅读本文需要一定的 Linux 基础，不适合新手，仅提供思路系统部署参考 Docker 下载：https://docs.docker.com/desktop/windows/install/ Docker 安装：https://www.runoob.com/docker/windows-docker-install.html 部署 Centos7 Docker 国内源参考源中科大网易源阿里镜像（建议）进入管理控制台 --> 产品与服务 --> 弹性计算 --> 容器镜像服务 ...
Sep 11, 20213 min read36

Command Palette