如何通过pyspark-notebook配置一个简单的pyspark运行环境？

该文章创建(更新)于10/29/2022，请注意文章的时效性！

文章目录[隐藏]

Docker 安装
- 安装jupyter/pyspark-notebook
- 说明
可以在Idea连接Jupyter使用
ElasticSearch和pyspark配置
参考

最近公司计算有用到Spark，就简单尝试了解了一下如何快速配置环境。

Docker 安装

安装jupyter/pyspark-notebook

docker run -itd --name jpspark -p 8888:8888 -p 4040:4040 -v /home/emperinter/spark:/home/jovyan/work --user root -e NB_GID=100 -e GRANT_SUDO=yes jupyter/pyspark-notebook:latest

说明

8888对应jupyter地址
4040对应spark查看地址
--user root 和 GRANT_SUDO=yes 保证有root操作权限可以自定义添加一些东西

可以在Idea连接Jupyter使用

文件读取操作还是在docker中的家目录上/home/jovyan

查看地址

docker logs -f jpspark

配置Pycharm

ElasticSearch和pyspark配置

下载ElasticSearch的jar依赖包(注意和elasticsearch的版本匹配上): https://www.elastic.co/cn/downloads/hadoop

参考

How To Write Apache Spark Data to ElasticSearch Using Python
Write-to-Elasticsearch-from-Pyspark
Spark Schema、Hive和Python的数据类型关系，以及Pyspark数据类型详解
Create PySpark dataframe from dictionary
官方教程
https://zhuanlan.zhihu.com/p/34901558 | 数据读取和写入
https://blog.51cto.com/u_15668366/5412243 | 文件读写

要不赞赏一下?

微信

支付宝

PayPal

Bitcoin

除非特别说明，本博客所有作品均采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可。转载请注明转自-
https://www.emperinter.info/2022/10/29/how-to-configure-a-simple-pyspark-runtime-environment-via-pyspark-notebook/

阿里云国际版	20美元
Vultr	10美元
搬瓦工 \| Bandwagon	应该有折扣吧？
Just My Socks	JMS9272283 【注意手动复制去跳转】
域名 \| namesilo	`emperinter`(1美元)
币安	币安

Docker 安装

安装jupyter/pyspark-notebook

说明

可以在Idea连接Jupyter使用

ElasticSearch和pyspark配置

参考

要不赞赏一下?

要不聊聊？

YouTube | B站

微信公众号

My Project

My Github Contributions

优惠码

近期文章

Docker 安装

安装jupyter/pyspark-notebook

说明

可以在Idea连接Jupyter使用

ElasticSearch和pyspark配置

参考

相关文章：

要不赞赏一下?

要不聊聊？

YouTube | B站

微信公众号

My Project

My Github Contributions

优惠码

近期文章