Spark笔记-玩转RDD操作

发表于 2020-10-14 更新于 2020-10-21 分类于 Spark 阅读次数： Valine：
本文字数： 9.4k 阅读时长 ≈ 9 分钟

RDD（Resilient Distributed Dataset）译作弹性分布式数据集，是Spark中最常用的数据抽象，是一个只可读、可分区、可并行计算的数据集合。RDD允许将工作集缓存在内存中进行复用，大大地提升了查询速度。

RDD简介

1、MapReduce 在面对日益复杂的业务逻辑时已经表现出严重的不足：
1.1）维护成本高昂，每一次数据处理都需要编写复杂的Map和Reduce步骤，中间某一步骤出错就要重试以处理异常；
1.2）难以上手，造成处理性能低；

2、因此人们提出用有向无环图（DAG）来抽象表达复杂的数据处理逻辑，各个数据处理步骤表示成图中的节点与边依赖关系，形成数据流的抽象表示，而把复杂的性能优化提交给后台自动处理；

阅读全文 »

epoch-batchSize-iterations

发表于 2020-10-12 更新于 2021-03-12 分类于 Machine Learning 阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

梯度下降

1、梯度下降是在机器学习中用于寻找最佳结果（曲线的最小值）的迭代优化算法。

2、梯度的含义是斜率或者斜坡的倾斜度；下降的含义是代价函数的下降。

3、算法是迭代的，意思是需要多次使用算法获取结果，以得到最优化结果。梯度下降的迭代性质能使欠拟合的图示演化以获得对数据的最佳拟合。

阅读全文 »

Spark笔记-玩转SparkSession

发表于 2020-10-12 更新于 2020-10-21 分类于 Spark 阅读次数： Valine：
本文字数： 2.5k 阅读时长 ≈ 2 分钟

关于SparkConf和SparkContext

1、每个Spark应用程序都需要一个Spark环境，这是Spark RDD API的主要入口点。Spark Shell提供了一个名为“sc”的预配置Spark环境和一个名为“spark”的预配置Spark会话；

2、任何Spark程序都是SparkContext开始的（SparkContext是允许驱动程序【spark drive】通过资源管理器访问集群）；

3、SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数；

阅读全文 »

Spark笔记-Spark任务提交方式

发表于 2020-10-11 更新于 2021-03-12 分类于 Spark 阅读次数： Valine：
本文字数： 5.1k 阅读时长 ≈ 5 分钟

Spark任务提交方式

Standalone模式两种提交任务方式

Standalone-client提交方式

提交命令：

阅读全文 »

Windows安装Hadoop

发表于 2020-10-10 分类于 Hadoop 阅读次数： Valine：
本文字数： 2.7k 阅读时长 ≈ 2 分钟

环境

主机：Windows 10
Hadoop：2.7.7
Java：1.8.0_241

步骤

1、确认Java已经安装，并已经添加到环境变量中，测试方法：cmd中输入java -version，显示如下：

阅读全文 »

github使用技巧

发表于 2020-10-09 更新于 2021-04-18 分类于 Github 阅读次数： Valine：
本文字数： 995 阅读时长 ≈ 1 分钟

本地项目上传至github

在安装好git的前提下：

create a new repository on the command line

echo "# text" >> README.md
git init
git add README.md
git commit -m "first commit"
git branch -M main
git remote add origin https://github.com/marchboy/text.git
git push -u origin main

阅读全文 »

Hello World

发表于 2020-10-01 更新于 2021-03-12 阅读次数： Valine：
本文字数： 367 阅读时长 ≈ 1 分钟

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.