Spark集群模式架构

Spark集群指的是Standalone的模式。但是该模式在实际工作中使用比较少,所以了解即可!!!

Standalone的模式是Spark自身进行资源和任务的管理,不借助任何的第三方的工具。

  • Master主角色(主节点)的主要作用:

    1- 管理众多的Worker从角色 2- 负责资源管理和任务的分配

    3- 将Driver进程分配给到Worker进行运行

    4- 接收Spark任务的请求

  • Worker从角色(从节点)的主要作用:

    1- Worker负责具体任务的执行

    2- Worker会向Master汇报心跳、任务运行的状态

    3- Driver随机选择一个Worker从角色进行启动和运行

    4- 负责执行Driver进程分配过来的任务

PyCharm远程开发配置

1、背景说明

    远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码 都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作
    注意: 本次这里配置远端环境,指的连接虚拟机中虚拟环境。可以配置为Base环境,也可以配置为其他的虚拟环境, 但是目前建议配置为Base环境,因为Base环境自带python包更全面一些

2、清理远程环境

在远程环境出错的时候会用到。一般一个远程主机推荐只配置一个

1.点击Settings

2.进入Interpreter

3.删除远程环境

4.删除SSH

到此,远程环境就删除成功了!

3、连接远程环境

1.点击Close Project

2.点击New Project

4.项目路径设置

5.SSH配置

6.选择python3解释器在远程环境的位置

7.配置远程目录

用来存放同步的代码

8.配置好以后,检查pyspark的版本是否是3.1.2

9.自动上传本地项目代码到远程

如果代码没有被自动上传到远程服务器,那么我们可以手动上传

4、重新连接到远程环境

1.点击Settings

2.找到Interpreter

3.新增远程环境

4.SSH配置

5.选择python3解释器在远程环境的位置

如果使用的是其他虚拟环境,通过如下截图进行配置:

6.配置远程目录

用来存放同步的代码

7.配置好以后,检查pyspark的版本是否是3.1.2

8.自动上传本地项目代码到远程

如果代码没有被自动上传到远程服务器,那么我们可以手动上传

5、补充:切换Python解释器后代码报错

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐