摸鱼大数据——Spark基础——Spark集群Standalone模式+PyCharm远程开发配置
远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码 都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作。可以配置为Base环境,也可以配置为其他的虚拟环境, 但是目前建议配置为Base环境,因为Base环境自带python包更全面一些。Standa
Spark集群模式架构
Spark集群指的是Standalone的模式。但是该模式在实际工作中使用比较少,所以了解即可!!!
Standalone的模式是Spark自身进行资源和任务的管理,不借助任何的第三方的工具。

-
Master主角色(主节点)的主要作用:
1- 管理众多的Worker从角色 2- 负责资源管理和任务的分配
3- 将Driver进程分配给到Worker进行运行
4- 接收Spark任务的请求
-
Worker从角色(从节点)的主要作用:
1- Worker负责具体任务的执行
2- Worker会向Master汇报心跳、任务运行的状态
3- Driver随机选择一个Worker从角色进行启动和运行
4- 负责执行Driver进程分配过来的任务
PyCharm远程开发配置

1、背景说明
远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码 都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作
注意: 本次这里配置远端环境,指的连接虚拟机中虚拟环境。可以配置为Base环境,也可以配置为其他的虚拟环境, 但是目前建议配置为Base环境,因为Base环境自带python包更全面一些
2、清理远程环境
在远程环境出错的时候会用到。一般一个远程主机推荐只配置一个
1.点击Settings

2.进入Interpreter

3.删除远程环境

4.删除SSH

到此,远程环境就删除成功了!
3、连接远程环境
1.点击Close Project

2.点击New Project

4.项目路径设置

5.SSH配置


6.选择python3解释器在远程环境的位置

7.配置远程目录
用来存放同步的代码

8.配置好以后,检查pyspark的版本是否是3.1.2


9.自动上传本地项目代码到远程
如果代码没有被自动上传到远程服务器,那么我们可以手动上传

4、重新连接到远程环境
1.点击Settings

2.找到Interpreter

3.新增远程环境

4.SSH配置


5.选择python3解释器在远程环境的位置

如果使用的是其他虚拟环境,通过如下截图进行配置:

6.配置远程目录
用来存放同步的代码



7.配置好以后,检查pyspark的版本是否是3.1.2


8.自动上传本地项目代码到远程
如果代码没有被自动上传到远程服务器,那么我们可以手动上传

5、补充:切换Python解释器后代码报错


更多推荐


所有评论(0)