반응형

/*
-- Title : 데이터 파이프라인 vs. ETL
-- Tag : data pipeline 람다 lambda 스트리밍 streaming etl

*/


■ 데이터 파이프라인이란?

• 데이터 분석가나 데이터가 필요한 조직에 적시에 제공하기 위하여 (빅)데이터의 수집 및 가공•정비•구축의 데이터 처리 프로세스를 의미
• 데이터의 이동 및 서비스 활용에 초점


■ ETL이란?

•추출(Extraction) - 변환(Transformation) - 로드(Load)의 절차를 의미하는 것으로 주로 소스 시스템에서 타겟 시스템으로의 데이터 이행에 관련된 프로세스
• 
데이터의 변환에 초점


■ 데이터 파이프라인 예시

ㅁ 기본  데이터 파이프라인

https://hazelcast.com/glossary/data-pipeline/

 

 

ㅁ 스트리밍 데이터(Straming Data) 파이프라인
    • 스트리밍 데이터는 실시간의 연속적인 이벤트 기반 데이터를 의미
    • 데이터 종류나 수가 제한되지 않은 데이터(Unbound Data)

https://hazelcast.com/glossary/data-pipeline/

ㅁ 람다(Lambda) 데이터 파이프라인
    • 배치(Batch) 및 스트리밍(Streaming)이 혼합된 아키텍처
    • 일반적으로 Enterprise급에서 주로 사용

https://hazelcast.com/glossary/lambda-architecture/

 

■ ETL 예시
    • 주로 기존 DW 구축시 표현

https://guidesure.net/ko

 


■ Data Pipeline vs. ETL

구분 데이터 파이프라인 ETL
장점 • 표준화된 일련의 프로세스로 다양한 서비스에 복제/재사용 편리
• 실시간/대량의 빅데이터 환경에 유리
• 다양하고 복잡한 변환 수행
• 데이터 통제 유리
• 시각화 편리

단점 • 고급 ETL 실행 어려움
• 기본 변환 및 편집 수준
• 실시간 처리 부적합
• 불필요한 대기시간 발생
활용 • 빅데이터, 실시간, 배치 • 배치
사례 • 실시간분석, 예측분석
• 새로운 서비스, 확장
• DW구축, 데이터 집중화, 표준화
• Data Silo간 이동

 


 

 

 

반응형

+ Recent posts