반응형

/*
-- Title : PySpark Jupyter Notebook에서 실행 (간단 예제)
-- Reference : 데이터센터 임0총
-- Tag : PySpark, Spark, Jupyter notebook 
*/


vi ~./bashrc
에서 SPARK_HOME과 jupyter notebook 사용을 위한 설정 추가
 
export SPARK_HOME=/home/couchbase/anaconda3/lib/python3.5/site-packages/pyspark
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
 
jupyter notebook --generate-config 명령어를 실행해서 환경설정 파일을 생성해준다.
 
 
[couchbase@infral1 .jupyter]$ pwd
/home/couchbase/.jupyter
[couchbase@infral1 .jupyter]$ vi jupyter_notebook_config.py
 
 
#....
c.NotebookApp.port = 8911
#.....
 
 
스파크의 포트번호가 겹치기 때문에 default 8888 이 아닌 다른 포트 번호를 지정해야 한다.
 
 
pyspark를 실행 시켰을대 jupyter notebook이 켜진다. 
 
 
 
from pyspark import SparkContext
sc = SparkContext()
wordsList = ['cat', 'elephant', 'rat', 'rat', 'cat']
wordsRDD = sc.parallelize(wordsList, 4)
wordPairs = wordsRDD.map(lambda x:(x,1))
wordsGrouped = wordPairs.groupByKey()
wordCountsGrouped = wordsGrouped.map(lambda args: (args[0], len(args[1])))
print(wordCountsGrouped.collect())
 
 
 
 
 
>> [('cat', 2), ('elephant', 1), ('rat', 2)]
 
워드카운트 간단 예제 실행
 
 
 
반응형

+ Recent posts