Spark2.1.0+入门:Spark的安装和使用(Python版)_厦大数据库实验室博客

基本步骤参考上方博文

安装成功之后,使用pyspark完成python编程的方式是

cd ~ #切换目录

vim your_python_file_name.py #打开py文件,写程序

from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
logFile = "file:///usr/local/spark/README.md"
logData = sc.textFile(logFile, 2).cache()
numAs = logData.filter(lambda line: 'a' in line).count()
numBs = logData.filter(lambda line: 'b' in line).count()
print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))

python3 ~/homework6.py #运行py文件

运行结果如下图:

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐