반응형

/*
-- Title : [DBR] 테이블 만들기 w/UI
-- Tag: databricks 데이터브릭스 table 테이블 
*/ 


■ 업로드된 사용자 데이터 확인

ㅁ 경로 : /FileStroe/tables/

# 사용자데이터 확인
display(dbutils.fs.ls('/FileStore/tables/'))

 

■ 데이터프레임으로 가져오기

ㅁ spark.read.csv 활용

# 사용자 데이터--> DataFrame으로 읽기
# 한글깨짐 현상 방지를 위해 encoding 설정해서 불러오기
df_usertbl = spark.read.csv("/FileStore/tables/TextDown_pm031323_1000.csv", header = True, encoding = 'euc-kr')

display(df_usertbl)

 

■ 데이터 타입 보기

# 데이터 타입 보기
df_usertbl.printSchema()

 

■ 데이터프레임 생성하기

ㅁ spark.read.options 활용

path = '/FileStore/tables/TextDown_pm031323_1000.csv'
df_export = spark.read.options(header=True, inferSchema=True, encoding = 'euc-kr').csv(path)

# 객체 타입 확인
print(type(df_export))

# 데이터 프린트 개수 제한 15
display(df_export.limit(15))


ㅁ Visualization 활용

■ 데이터프레임을 Python Pandas로 전환하기

# 객체 타입 확인
print(type(pdf_export))

# Pyspark DF -> Python Pandas 프레임으로 변환 
pdf_export = df_export.toPandas() 

# 객체 타입 확인
print(type(pdf_export))

# 판다스 데이터프레임 형식으로 간단한 시각화 지원 안됨 
pdf_export.head(10)


References:

반응형

+ Recent posts