반응형
/*
-- Title : [DBR] 테이블 만들기 w/UI
-- Tag: databricks 데이터브릭스 table 테이블
*/
■ 업로드된 사용자 데이터 확인
ㅁ 경로 : /FileStroe/tables/
# 사용자데이터 확인
display(dbutils.fs.ls('/FileStore/tables/'))
■ 데이터프레임으로 가져오기
ㅁ spark.read.csv 활용
# 사용자 데이터--> DataFrame으로 읽기
# 한글깨짐 현상 방지를 위해 encoding 설정해서 불러오기
df_usertbl = spark.read.csv("/FileStore/tables/TextDown_pm031323_1000.csv", header = True, encoding = 'euc-kr')
display(df_usertbl)
■ 데이터 타입 보기
# 데이터 타입 보기
df_usertbl.printSchema()
■ 데이터프레임 생성하기
ㅁ spark.read.options 활용
path = '/FileStore/tables/TextDown_pm031323_1000.csv'
df_export = spark.read.options(header=True, inferSchema=True, encoding = 'euc-kr').csv(path)
# 객체 타입 확인
print(type(df_export))
# 데이터 프린트 개수 제한 15
display(df_export.limit(15))
ㅁ Visualization 활용
■ 데이터프레임을 Python Pandas로 전환하기
# 객체 타입 확인
print(type(pdf_export))
# Pyspark DF -> Python Pandas 프레임으로 변환
pdf_export = df_export.toPandas()
# 객체 타입 확인
print(type(pdf_export))
# 판다스 데이터프레임 형식으로 간단한 시각화 지원 안됨
pdf_export.head(10)
References:
반응형