
大数据分析(三)——安装和启动Spark
Spark运行py文件的基本操作
·
Spark2.1.0+入门:Spark的安装和使用(Python版)_厦大数据库实验室博客
基本步骤参考上方博文
安装成功之后,使用pyspark完成python编程的方式是
cd ~ #切换目录
vim your_python_file_name.py #打开py文件,写程序
from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
logFile = "file:///usr/local/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))
python3 ~/homework6.py #运行py文件
运行结果如下图:
更多推荐
所有评论(0)