最近公司计算有用到Spark,就简单尝试了解了一下如何快速配置环境。
Docker 安装
安装jupyter/pyspark-notebook
docker run -itd --name jpspark -p 8888:8888 -p 4040:4040 -v /home/emperinter/spark:/home/jovyan/work --user root -e NB_GID=100 -e GRANT_SUDO=yes jupyter/pyspark-notebook:latest
说明
8888
对应jupyter地址-
4040
对应spark查看地址 -
--user root
和GRANT_SUDO=yes
保证有root操作权限可以自定义添加一些东西
可以在Idea连接Jupyter使用
文件读取操作还是在docker中的家目录上
/home/jovyan
- 查看地址
docker logs -f jpspark
- 配置Pycharm
ElasticSearch和pyspark配置
- 下载ElasticSearch的jar依赖包(注意和elasticsearch的版本匹配上): https://www.elastic.co/cn/downloads/hadoop
参考
- How To Write Apache Spark Data to ElasticSearch Using Python
- Write-to-Elasticsearch-from-Pyspark
- Spark Schema、Hive和Python的数据类型关系,以及Pyspark数据类型详解
- Create PySpark dataframe from dictionary
- 官方教程
- https://zhuanlan.zhihu.com/p/34901558 | 数据读取和写入
- https://blog.51cto.com/u_15668366/5412243 | 文件读写