■ 빅데이터 웨어하우징 Meetup에서의 Caerta 자료 소개

 

- 14 -

• MPP(대규모 병렬 처리)는 대부분 컬럼형 소트리지 활용
• 일반적으로 인덱스나 제약 조건이 없음

 

- 15 -

• MPP 모데링 고려사항

• 일반적으로 Star Schema 적합

• 대형 테이블간 조인 방지위해 비정규화 선호

• 차원은 작게, '브로드캐스트' 조인 및 배포 전략 촉

 

- 16 -

• Hadoop의 차원 모델링을 위한 스토리지 최적화

• ORC 또는 Parquet 형식 사용(열지향)

• 기본 영업일이 포함된 팩트 테이블에 파티션 전략 사용

 

- 17 -

• 하둡 모델링 고려사항

• MPP와 매우 유사(차원 테이블 작게 유지, 브로드캐스트 조인)

 

- 18 -

• 차원 모델의 장점

• 사용자 관점, 쿼리/측정 관점

• 단순성 - 더 적은 수의 테이블, 더 적은 조인, 명시적 사실

• 고성능 쿼리 - Start Join 최적화, Aggregate 관리

 

- 19 -

• 차원 및 사실

• Conformed Facts 

 


※ Referneces:

• https://www.slideshare.net/CasertaConcepts/big-data-warehousing-meetup-dimensional-modeling-still-matters

 

 

 

 

+ Recent posts