大数据分析（三）——安装和启动Spark

Spark运行py文件的基本操作

朦朦墨色染

640人浏览 · 2022-11-06 16:18:10

朦朦墨色染 · 2022-11-06 16:18:10 发布

Spark2.1.0+入门：Spark的安装和使用(Python版)_厦大数据库实验室博客

基本步骤参考上方博文

安装成功之后，使用pyspark完成python编程的方式是

cd ~ #切换目录

vim your_python_file_name.py #打开py文件，写程序

from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
logFile = "file:///usr/local/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

python3 ~/homework6.py #运行py文件

运行结果如下图：

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

销售数据分析方法、如何写好一个专题分析报告、Hive大数据知识体系教程、大数据分析平台总体架构方案……| 本周精华...

▲点击上方卡片关注我，回复“8”，加入数据分析·领地，一起学习数据分析，持续更新数据分析学习路径相关资料~（精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~）回复“小飞象”，领取数据分析知识大礼包。关注微信公众号：木木自由，更多产品、运营与数据分析干货以及经验分享【数据分析-领地】知识星球，每周会产生大量精华内容，每周将整理《数据分析-领地：一周星球内参》，让你不错过任何一

永洪数据分析社区

玩玩大数据：自拍有风险！大数据分析，是什么“出卖”了你？

史上最昂贵的自拍照，诞生于2007年。两名美国大兵在伊拉克的军营中玩自拍并且传到了社交网络上。结果几天之后，这个秘密的驻扎地就遭到了恐怖分子火箭弹的袭击。四架“阿帕奇”直升机惨遭“爆菊”，...

永洪数据分析社区

Web报表软件的集成方案

报表开发只是应用程序中的一部分，而非全部，因此Web报表软件的集成性就显得非常重要了。　传统的Web报表软件无一例外地都提供了一个独立的报表服务器。采用独立服务器时的，应用结构如下图：　采用独立服务器的不便：• 独立的报表服务器，与应用程序的沟通是通过网络协议，严重降低性能；• 无法享受应用服务器的各项优势功能，包括集群能力、连接池的管理...