如何通过pyspark-notebook配置一个简单的pyspark运行环境?

最近公司计算有用到Spark,就简单尝试了解了一下如何快速配置环境。

Docker 安装

安装jupyter/pyspark-notebook

docker run -itd --name jpspark -p 8888:8888 -p 4040:4040 -v /home/emperinter/spark:/home/jovyan/work --user root -e NB_GID=100 -e GRANT_SUDO=yes jupyter/pyspark-notebook:latest

说明

  • 8888对应jupyter地址

  • 4040对应spark查看地址

  • --user rootGRANT_SUDO=yes 保证有root操作权限可以自定义添加一些东西

可以在Idea连接Jupyter使用

文件读取操作还是在docker中的家目录上/home/jovyan

  • 查看地址
docker logs -f jpspark

  • 配置Pycharm

ElasticSearch和pyspark配置

参考


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *