RDD(Resilient Distributed Dataset)译作弹性分布式数据集,是Spark中最常用的数据抽象,是一个只可读、可分区、可并行计算的数据集合。RDD允许将工作集缓存在内存中进行复用,大大地提升了查询速度。

RDD简介

1、MapReduce 在面对日益复杂的业务逻辑时已经表现出严重的不足:
1.1)维护成本高昂,每一次数据处理都需要编写复杂的Map和Reduce步骤,中间某一步骤出错就要重试以处理异常;
1.2)难以上手,造成处理性能低;

2、因此人们提出用有向无环图(DAG)来抽象表达复杂的数据处理逻辑,各个数据处理步骤表示成图中的节点与边依赖关系,形成数据流的抽象表示,而把复杂的性能优化提交给后台自动处理;

阅读全文 »

梯度下降

1、梯度下降是在机器学习中用于寻找最佳结果(曲线的最小值)的迭代优化算法。

2、梯度的含义是斜率或者斜坡的倾斜度;下降的含义是代价函数的下降。

3、算法是迭代的,意思是需要多次使用算法获取结果,以得到最优化结果。梯度下降的迭代性质能使欠拟合的图示演化以获得对数据的最佳拟合。

阅读全文 »

关于SparkConf和SparkContext

1、每个Spark应用程序都需要一个Spark环境,这是Spark RDD API的主要入口点。Spark Shell提供了一个名为“sc”的预配置Spark环境和一个名为“spark”的预配置Spark会话;

2、任何Spark程序都是SparkContext开始的(SparkContext是允许驱动程序【spark drive】通过资源管理器访问集群);

3、SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数;

阅读全文 »

Spark任务提交方式

Standalone模式两种提交任务方式

Standalone-client提交方式

提交命令:

阅读全文 »

环境

主机:Windows 10
Hadoop:2.7.7
Java:1.8.0_241

步骤

1、确认Java已经安装,并已经添加到环境变量中,测试方法:cmd中输入java -version,显示如下:

阅读全文 »

本地项目上传至github

在安装好git的前提下:

create a new repository on the command line

1
2
3
4
5
6
7
echo "# text" >> README.md
git init
git add README.md
git commit -m "first commit"
git branch -M main
git remote add origin https://github.com/marchboy/text.git
git push -u origin main
阅读全文 »

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

1
$ hexo new "My New Post"
阅读全文 »

为什么需要数据指标

现阶段互联网发展已经进入精细化运营时代,精细化运营则要求产品能拥有完整、准确且有效的数据。因此为自己的产品搭建一套数据指标体系,对于促进产品和业务增长是至关重要的。

指标能够量化的衡量业务的好坏,评价业务当前情况,为业务的发展提供有效的指引,同时能使团队成员建立共同的目标并为之努力。

数据指标搭建模型

阅读全文 »