[DBR] 샘플 데이터세트 (Sample Datasets)

2023. 4. 13. 20:50

/*
-- Title : [DBR] 샘플 데이터세트 (Sample Datasets)
-- Tag : sample datasets 샘플 데이터셋 샘플 데이터세트 dbfs databrics file system
*/

■ 샘플 데이터세트

Databricks 워크스페이스에서 사용할 수 있는 타사 제공용 샘플 데이터 세트

Unity 카탈로그 데이터세트
Databricks 데이터 세트(databricks-datasets)
CSV 형식의 타사 샘플 데이터 세트
라이브러리 내의 타사 샘플 데이터 세트

■ Databricks File Store 저장 내역 조회

ㅁ 전체 DBFS 경로 조회

%python
display(dbutils.fs.ls('/'))

■ 샘플 데이터세트 조회

ㅁ Databricks 샘플 데이터세트 (databricks-datasets)

$python
display(dbutils.fs.ls('databricks-datasets/'))

■ 샘플 데이터세트 - Table 조회

ㅁ Namespace 구조

{Catalog Name}.{Schema Name}.{Table Name}.{Column Name}
Schema Name = Database Name

ㅁ 샘플 스키마 보기

%sql
show schemas in samples

ㅁ 샘플 테이블 보기

%sql
show tables in samples.tpch

ㅁ samples.tpch.customer 테이블 조회

%sql
select * from samples.tpch.customer limit 5

■ diamonds.csv 샘플 경로 확인

%python
display(dbutils.fs.ls('/databricks-datasets/Rdatasets/data-001/csv/ggplot2'))

■ CSV -> Dataframe으로 가져오기

# 제공 데이터셋 'diamonds' 불러오기 
df_diamonds = spark.read.csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header=True)

# 타입 확인
print(type(df_diamonds))

# 데이터 프린트
display(diamonds)

■ Dataframe에서 계산하기

# 모듈 호출 
import pandas as pd
from pyspark.sql.functions import avg

# diamonds 데이터 색상(color)별로 가격(price) 평균 구하기 
display(diamonds.select("color","price").groupBy("color").agg(avg("price")).sort("color"))

■ Delta 데이터 가져오기

# delta 활용 
data = (spark.read.format("delta") 
  .option("header", "true")
  .option("inferSchema", "true")
  .load("/databricks-datasets/learning-spark-v2/people/people-10m.delta"))

display(data)

References:

저작자표시 비영리 동일조건

디비랑[dɪ'bɪraŋ]

[DBR] 샘플 데이터세트 (Sample Datasets)

+ Recent posts

티스토리툴바