반응형

/*
-- Title : [DBR] 샘플 데이터세트 (Sample Datasets)
-- Tag : sample datasets 샘플 데이터셋 샘플 데이터세트 dbfs databrics file system
*/


■ 샘플 데이터세트

Databricks 워크스페이스에서 사용할 수 있는 타사 제공용 샘플 데이터 세트

  • Unity 카탈로그 데이터세트
  • Databricks 데이터 세트(databricks-datasets)
  • CSV 형식의 타사 샘플 데이터 세트
  • 라이브러리 내의 타사 샘플 데이터 세트

 

■ Databricks File Store 저장 내역 조회

ㅁ 전체 DBFS 경로 조회

%python
display(dbutils.fs.ls('/'))

 

■ 샘플 데이터세트 조회

ㅁ Databricks 샘플 데이터세트 (databricks-datasets)

$python
display(dbutils.fs.ls('databricks-datasets/'))

 

■ 샘플 데이터세트 - Table 조회

ㅁ Namespace 구조

  • {Catalog Name}.{Schema Name}.{Table Name}.{Column Name}
  • Schema Name = Database Name


ㅁ 샘플 스키마 보기

%sql
show schemas in samples


ㅁ 샘플 테이블 보기

%sql
show tables in samples.tpch


ㅁ samples.tpch.customer 테이블 조회

%sql
select * from samples.tpch.customer limit 5

 

■ diamonds.csv 샘플 경로 확인

%python
display(dbutils.fs.ls('/databricks-datasets/Rdatasets/data-001/csv/ggplot2'))

 

■ CSV -> Dataframe으로 가져오기

# 제공 데이터셋 'diamonds' 불러오기 
df_diamonds = spark.read.csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header=True)

# 타입 확인
print(type(df_diamonds))

# 데이터 프린트
display(diamonds)

 

■ Dataframe에서 계산하기

# 모듈 호출 
import pandas as pd
from pyspark.sql.functions import avg

# diamonds 데이터 색상(color)별로 가격(price) 평균 구하기 
display(diamonds.select("color","price").groupBy("color").agg(avg("price")).sort("color"))

 

■ Delta 데이터 가져오기

# delta 활용 
data = (spark.read.format("delta") 
  .option("header", "true")
  .option("inferSchema", "true")
  .load("/databricks-datasets/learning-spark-v2/people/people-10m.delta"))

display(data)

 


References:

 

 

반응형

+ Recent posts