[TOC]
rdd
RDD 是 Resilient Distributed Datasets(具有容错性的分布式数据集)的缩写,是Apache Spark中的一个基本抽象概念。Spark是一个用于大规模数据处理的开源分布式计算框架,RDD 是其核心数据结构。
[TOC]
RDD 是 Resilient Distributed Datasets(具有容错性的分布式数据集)的缩写,是Apache Spark中的一个基本抽象概念。Spark是一个用于大规模数据处理的开源分布式计算框架,RDD 是其核心数据结构。