RDD(Resilient Distributed Dataset)译作弹性分布式数据集,是Spark中最常用的数据抽象,是一个只可读、可分区、可并行计算的数据集合。RDD允许将工作集缓存在内存中进行复用,大大地提升了查询速度。
RDD简介
1、MapReduce 在面对日益复杂的业务逻辑时已经表现出严重的不足:
1.1)维护成本高昂,每一次数据处理都需要编写复杂的Map和Reduce步骤,中间某一步骤出错就要重试以处理异常;
1.2)难以上手,造成处理性能低;
2、因此人们提出用有向无环图(DAG)来抽象表达复杂的数据处理逻辑,各个数据处理步骤表示成图中的节点与边依赖关系,形成数据流的抽象表示,而把复杂的性能优化提交给后台自动处理;