Skip to main content

Command Palette

Search for a command to run...

Series

Big Data

  1. 【两万字总结】Spark 部署与入门

    Spark 介绍 核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。 最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HDFS,更适用于需要迭代的 MapReduce 算法场景中,可以获得更好的性能提升。 例如一次排序测试中,对 100TB 数据进行排序,Spark 比 Hadoop 快三倍,并且只需要十分之一的机器。 Spark 集群目前最大的可以达到 8000 节点,处理的数据达到 PB 级别...

    Oct 20, 202115 min read264
  2. MapReduce 原理与实践

    MapReduce 简介 MapReduce 核心思想 Hadoop MapReduce 是一个编程框架,它可以轻松地编写应用程序,以可靠的、容错的方式处理大量的数据(数千个节点)。 正如其名,MapReduce 的工作模式主要分为 Map 阶段和 Reduce 阶段。 一个 MapReduce 任务(Job)通常将输入的数据集分割成独立的块,这些块被 map 任务以完全并行的方式处理。框架对映射(map)的输出进行排序,然后将其输入到 reduce 任务中。通常,作业的输入和输出都存储在文件系...

    Sep 15, 20216 min read11
  3. Hdfs架构与操作

    HDFS 简介 HDFS 架构 如同其名称,HDFS (Hadoop Distributed File System)是 Hadoop 框架内进行分布式存储的组件,具有容错性和可扩展性。 HDFS 可以作为 Hadoop 集群的一部分,也可以作为独立的通用分布式文件系统。例如, HBase 就建立在 HDFS 之上,而 Spark 也可以将 HDFS 作为数据源之一。学习 HDFS 的架构和基本操作,对于特定集群的配置、改进和诊断将会有较大的帮助。 HDFS 是 Hadoop 应用程序主要使用的...

    Sep 13, 20214 min read87