반응형
/*
-- Title : [DBR] 샘플 데이터세트 (Sample Datasets)
-- Tag : sample datasets 샘플 데이터셋 샘플 데이터세트 dbfs databrics file system
*/
■ 샘플 데이터세트
Databricks 워크스페이스에서 사용할 수 있는 타사 제공용 샘플 데이터 세트
- Unity 카탈로그 데이터세트
- Databricks 데이터 세트(databricks-datasets)
- CSV 형식의 타사 샘플 데이터 세트
- 라이브러리 내의 타사 샘플 데이터 세트
■ Databricks File Store 저장 내역 조회
ㅁ 전체 DBFS 경로 조회
%python
display(dbutils.fs.ls('/'))
■ 샘플 데이터세트 조회
ㅁ Databricks 샘플 데이터세트 (databricks-datasets)
$python
display(dbutils.fs.ls('databricks-datasets/'))
■ 샘플 데이터세트 - Table 조회
ㅁ Namespace 구조
- {Catalog Name}.{Schema Name}.{Table Name}.{Column Name}
- Schema Name = Database Name
ㅁ 샘플 스키마 보기
%sql
show schemas in samples
ㅁ 샘플 테이블 보기
%sql
show tables in samples.tpch
ㅁ samples.tpch.customer 테이블 조회
%sql
select * from samples.tpch.customer limit 5
■ diamonds.csv 샘플 경로 확인
%python
display(dbutils.fs.ls('/databricks-datasets/Rdatasets/data-001/csv/ggplot2'))
■ CSV -> Dataframe으로 가져오기
# 제공 데이터셋 'diamonds' 불러오기
df_diamonds = spark.read.csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header=True)
# 타입 확인
print(type(df_diamonds))
# 데이터 프린트
display(diamonds)
■ Dataframe에서 계산하기
# 모듈 호출
import pandas as pd
from pyspark.sql.functions import avg
# diamonds 데이터 색상(color)별로 가격(price) 평균 구하기
display(diamonds.select("color","price").groupBy("color").agg(avg("price")).sort("color"))
■ Delta 데이터 가져오기
# delta 활용
data = (spark.read.format("delta")
.option("header", "true")
.option("inferSchema", "true")
.load("/databricks-datasets/learning-spark-v2/people/people-10m.delta"))
display(data)
References:
반응형