반응형
/*
-- Title : PySpark Jupyter Notebook에서 실행 (간단 예제)
-- Reference : 데이터센터 임0총
-- Tag : PySpark, Spark, Jupyter notebook
*/
- 스파크 다운로드 http://spark.apache.org/downloads.html
- 압축풀기 $ tar –zvxf spark-2.3.0-bin-hadoop2.7.tgz
vi ~./bashrc
에서 SPARK_HOME과 jupyter notebook 사용을 위한 설정 추가
export SPARK_HOME=/home/couchbase/anaconda3/lib/python3.5/site-packages/pyspark
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
jupyter notebook --generate-config 명령어를 실행해서 환경설정 파일을 생성해준다.
[couchbase@infral1 .jupyter]$ pwd
/home/couchbase/.jupyter
[couchbase@infral1 .jupyter]$ vi jupyter_notebook_config.py
#....
c.NotebookApp.port = 8911
#.....
스파크의 포트번호가 겹치기 때문에 default 8888 이 아닌 다른 포트 번호를 지정해야 한다.
pyspark를 실행 시켰을대 jupyter notebook이 켜진다.
워드카운트 간단 예제 실행
반응형