PySpark를 Jupyter Notebook사용하게 설정 (간단 예제)

2019. 10. 2. 15:04

/*
-- Title : PySpark Jupyter Notebook에서 실행 (간단 예제)
-- Reference : 데이터센터 임0총
-- Tag : PySpark, Spark, Jupyter notebook
*/

스파크 다운로드 http://spark.apache.org/downloads.html
압축풀기 $ tar –zvxf spark-2.3.0-bin-hadoop2.7.tgz

vi ~./bashrc

에서 SPARK_HOME과 jupyter notebook 사용을 위한 설정 추가

export SPARK_HOME=/home/couchbase/anaconda3/lib/python3.5/site-packages/pyspark
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

jupyter notebook --generate-config 명령어를 실행해서 환경설정 파일을 생성해준다.

[couchbase@infral1 .jupyter]$ pwd
/home/couchbase/.jupyter
[couchbase@infral1 .jupyter]$ vi jupyter_notebook_config.py
 
 
#....
c.NotebookApp.port = 8911
#.....

스파크의 포트번호가 겹치기 때문에 default 8888 이 아닌 다른 포트 번호를 지정해야 한다.

pyspark를 실행 시켰을대 jupyter notebook이 켜진다.

from pyspark import SparkContext
sc = SparkContext()
wordsList = ['cat', 'elephant', 'rat', 'rat', 'cat']
wordsRDD = sc.parallelize(wordsList, 4)
wordPairs = wordsRDD.map(lambda x:(x,1))
wordsGrouped = wordPairs.groupByKey()
wordCountsGrouped = wordsGrouped.map(lambda args: (args[0], len(args[1])))
print(wordCountsGrouped.collect())
 
 

>> [('cat', 2), ('elephant', 1), ('rat', 2)]

워드카운트 간단 예제 실행

저작자표시 비영리 동일조건 (새창열림)

디비랑[dɪ'bɪraŋ]

PySpark를 Jupyter Notebook사용하게 설정 (간단 예제)

+ Recent posts

티스토리툴바