반응형
/*
-- Title : ETL vs. ELT
-- Tag : extractation transformation load 추출 변환 로드 적재
*/
■ ETL
• 소스 시스템에서 데이터를 추출(Extraction), 변환(Transformation)하여 타겟 시스템에 적재(Load)하는 프로세스
• 변환된 데이터를 타겟시스템에 적재
• 주로 On-Premise 기반
■ ELT
• 추출(Extraction)과 동시에 우선 적재(Load)를 타겟 시스템에 수행
• 주로 빅데이터 기반에서 빠른 구축을 목적
• 데이터 정비, 가공, 변환등을 대부분 DW자체에서 수행
• 주로 클라우드 기반
■ ETL vs. ELT
범주
|
ETL
|
ELT
|
Definition
|
데이터는 소스 시스템에서 추출되고 보조 처리 서버에서 변환되어 대상 시스템으로 로드
|
데이터는 소스 시스템에서 추출되어 대상 시스템으로 로드되고 대상 시스템 내부에서 변환
|
Extract
|
원시 데이터는 API 커넥터를 사용하여 추출
|
원시 데이터는 API 커넥터를 사용하여 추출
|
Transform
|
원시 데이터는 처리 서버에서 변환
|
원시 데이터는 대상 시스템 내에서 변환
|
Load
|
변환된 데이터는 대상 시스템에 로드
|
원시 데이터는 대상 시스템에 직접 로드
|
Speed
|
ETL은 시간이 많이 소요되는 프로세스, 데이터는 대상 시스템에 로드하기 전에 변환
|
ETL에 비해 더 빠름, 데이터는 대상 시스템에 직접 로드되고 병렬로 변환
|
Code-based
|
보조 서버에서 수행, 컴퓨팅 집약적인 변환 및 사전 정리에 가장 적합
|
데이터베이스 내에서 수행, 변환과 동시에 로드, 속도 및 효율성.
|
Maturity
|
최신 ETL은 20년 이상 존재, 그 관행과 프로토콜은 잘 알려져 있고 문서화
|
ELT는 새로운 형태의 데이터 통합, 문서 및 경험 부족
|
Privacy
|
사전 로드 변환은 PII를 제거
|
더 많은 개인 정보 보호 장치가 필요
|
Maintenance
|
2차 처리 서버는 유지 관리 부담을 가중
|
적은 수의 시스템으로 유지 관리 부담 감소
|
Costs
|
별도의 서버는 비용 문제를 발생
|
단순화된 데이터 스택 비용이 더 적음
|
Requeries
|
데이터는 대상 시스템에 들어가기 전에 변환, 원시 데이터를 다시 쿼리할 수 없음
|
원시 데이터는 대상 시스템에 직접 로드, 끝없이 다시 쿼리 가능
|
Datalake Compatibility
|
데이터 레이크 호환성이 없음
|
데이터 레이크 호환성이 있음
|
Data Output
|
구조화됨(일반적으로)
|
구조화, 반구조화, 비구조화
|
Data Volume
|
복잡한 변환 요구 사항이 있는 소규모 데이터 세트에 이상적
|
속도와 효율성이 필요한 대규모 데이터 세트에 이상적
|
참조 : rivery.io/blog/etl-vs-elt/
반응형