/*
-- Title : 데이터 파이프라인 vs. ETL
-- Tag : data pipeline 람다 lambda 스트리밍 streaming etl
*/
■ 데이터 파이프라인이란?
• 데이터 분석가나 데이터가 필요한 조직에 적시에 제공하기 위하여 (빅)데이터의 수집 및 가공•정비•구축의 데이터 처리 프로세스를 의미
• 데이터의 이동 및 서비스 활용에 초점
■ ETL이란?
•추출(Extraction) - 변환(Transformation) - 로드(Load)의 절차를 의미하는 것으로 주로 소스 시스템에서 타겟 시스템으로의 데이터 이행에 관련된 프로세스
• 데이터의 변환에 초점
■ 데이터 파이프라인 예시
ㅁ 기본 데이터 파이프라인
ㅁ 스트리밍 데이터(Straming Data) 파이프라인
• 스트리밍 데이터는 실시간의 연속적인 이벤트 기반 데이터를 의미
• 데이터 종류나 수가 제한되지 않은 데이터(Unbound Data)
ㅁ 람다(Lambda) 데이터 파이프라인
• 배치(Batch) 및 스트리밍(Streaming)이 혼합된 아키텍처
• 일반적으로 Enterprise급에서 주로 사용
■ ETL 예시
• 주로 기존 DW 구축시 표현
■ Data Pipeline vs. ETL
구분 | 데이터 파이프라인 | ETL |
장점 | • 표준화된 일련의 프로세스로 다양한 서비스에 복제/재사용 편리 • 실시간/대량의 빅데이터 환경에 유리 |
• 다양하고 복잡한 변환 수행 • 데이터 통제 유리 • 시각화 편리 |
단점 | • 고급 ETL 실행 어려움 • 기본 변환 및 편집 수준 |
• 실시간 처리 부적합 • 불필요한 대기시간 발생 |
활용 | • 빅데이터, 실시간, 배치 | • 배치 |
사례 | • 실시간분석, 예측분석 • 새로운 서비스, 확장 |
• DW구축, 데이터 집중화, 표준화 • Data Silo간 이동 |