■ 빅데이터 웨어하우징 Meetup에서의 Caerta 자료 소개
• MPP(대규모 병렬 처리)는 대부분 컬럼형 소트리지 활용
• 일반적으로 인덱스나 제약 조건이 없음
• MPP 모데링 고려사항
• 일반적으로 Star Schema 적합
• 대형 테이블간 조인 방지위해 비정규화 선호
• 차원은 작게, '브로드캐스트' 조인 및 배포 전략 촉
• Hadoop의 차원 모델링을 위한 스토리지 최적화
• ORC 또는 Parquet 형식 사용(열지향)
• 기본 영업일이 포함된 팩트 테이블에 파티션 전략 사용
• 하둡 모델링 고려사항
• MPP와 매우 유사(차원 테이블 작게 유지, 브로드캐스트 조인)
• 차원 모델의 장점
• 사용자 관점, 쿼리/측정 관점
• 단순성 - 더 적은 수의 테이블, 더 적은 조인, 명시적 사실
• 고성능 쿼리 - Start Join 최적화, Aggregate 관리
• 차원 및 사실
• Conformed Facts
※ Referneces: