반응형

/*
-- Title : ETL vs. ELT
-- Tag : extractation transformation load 추출 변환 로드 적재

*/


■ ETL

• 소스 시스템에서 데이터를 추출(Extraction), 변환(Transformation)하여 타겟 시스템에 적재(Load)하는 프로세스
• 변환된 데이터를 타겟시스템에 적재
• 주로 On-Premise 기반

참조 : https://rivery.io/blog/etl-vs-elt/


■ ELT

• 추출(Extraction)과 동시에 우선 적재(Load)를 타겟 시스템에 수행
• 주로 빅데이터 기반에서 빠른 구축을 목적
• 데이터 정비, 가공, 변환등을 대부분 DW자체에서 수행
• 주로 클라우드 기반

참조 : https://rivery.io/blog/etl-vs-elt/


■ ETL vs. ELT

범주
ETL
ELT
Definition
데이터는 소스 시스템에서 추출되고 보조 처리 서버에서 변환되어 대상 시스템으로 로드 
데이터는 소스 시스템에서 추출되어 대상 시스템으로 로드되고 대상 시스템 내부에서 변환 
Extract
원시 데이터는 API 커넥터를 사용하여 추출
원시 데이터는 API 커넥터를 사용하여 추출
Transform
원시 데이터는 처리 서버에서 변환
원시 데이터는 대상 시스템 내에서 변환
Load
변환된 데이터는 대상 시스템에 로드
원시 데이터는 대상 시스템에 직접 로드
Speed
ETL은 시간이 많이 소요되는 프로세스, 데이터는 대상 시스템에 로드하기 전에 변환
ETL에 비해 더 빠름, 데이터는 대상 시스템에 직접 로드되고 병렬로 변환
Code-based
보조 서버에서 수행, 컴퓨팅 집약적인 변환 및 사전 정리에 가장 적합
데이터베이스 내에서 수행, 변환과 동시에 로드, 속도 및 효율성.
Maturity
최신 ETL은 20년 이상 존재, 그 관행과 프로토콜은 잘 알려져 있고 문서화
ELT는 새로운 형태의 데이터 통합, 문서 및 경험 부족
Privacy
사전 로드 변환은 PII를 제거
더 많은 개인 정보 보호 장치가 필요
Maintenance
2차 처리 서버는 유지 관리 부담을 가중
적은 수의 시스템으로 유지 관리 부담 감소
Costs
별도의 서버는 비용 문제를 발생
단순화된 데이터 스택 비용이 더 적음
Requeries
데이터는 대상 시스템에 들어가기 전에 변환, 원시 데이터를 다시 쿼리할 수 없음
원시 데이터는 대상 시스템에 직접 로드, 끝없이 다시 쿼리 가능
Datalake Compatibility
데이터 레이크 호환성이 없음
데이터 레이크 호환성이 있음
Data Output
구조화됨(일반적으로)
구조화, 반구조화, 비구조화
Data Volume
복잡한 변환 요구 사항이 있는 소규모 데이터 세트에 이상적
속도와 효율성이 필요한 대규모 데이터 세트에 이상적

참조 : rivery.io/blog/etl-vs-elt/


 

 

반응형

+ Recent posts