반응형
/********************************************************************************************
-- Title : (dBNuri) ETL의 개요
-- Reference : OLAP 테크놀로지(SigmaInsight.조재희.박성진)
                     00000 교육센터 OLAP 교육과정
                     외 다수 관련 블로그 및 사이트
-- Key word : ETL ETT ECTL
********************************************************************************************/
-- 아래 내용들은 상단에 언급된 레퍼런스를 참조한 것들이고 잘못 이해한 것들이 있을 수 있습니다.
-- 틀린 부분은 언제나 Feedback 주십시오..^^



ETL 정의
데이터를 소스시스템에서 추출하여 데이터웨어하우스에 로드하는 것과 로드된 데이터에 대한 정제 작업까지의 일련의 과정
-- 소스시스템에서 타겟시스템으로 데이터를 적재하는 일련의 과정을 말한다.



ETL 구성
ㅇ 데이터 추출(Data Extraction)
ㅇ 데이터 정제(Data Cleansing)
ㅇ 데이터 변환(Data Transformation)
ㅇ 데이터 적재(Data Loading, Transportation)
-- Extraction : 소스시스템에서 데이터 검색하고 추출하는 과정
-- Cleansing : 타겟시스템에서 요구되는 데이터 정의에 맞춰 표준화나 수정하는 과정
-- Transformation : 소스시스템에서 타겟시스템에 맞게 변환하는 과정
-- Loading : 이동된 데이터를 타겟시스템에 로딩하는 과정



ETL 프로세스
ㅇ 분석
ㅇ 설계
ㅇ 구축
ㅇ 검증
-- 분석 : 전체 DW 분석 단계에서 수립된 논리 모델을 이해한다.
-- 설계 : 분석단계에서 설계된 논리적 모델을 기준으로 업무특성, 데이터특성, 소프트웨어
             (DMBS, DW관리도구, OLAP도구) 등을 고려하여 물리적 데이터 추출/정제/변형/
             적재 작업을 설계한다.
            ㅇ 소스데이터와 타겟데이터의 매핑 설계
            ㅇ 데이터 분석(코드 매핑, 데이터 일치 등)
            ㅇ 데이터 변환/정제 설계
            ㅇ 데이터 및 작업 분산 설계
            ㅇ 데이터 적재 설계
            ㅇ 작업처리 절차 설계
-- 구축 : 분석, 설계 단계에서 행하여진 작업의 결과를 바탕으로 세부적인 데이터 추출/정제
             변형/적재 작업을 수행한다.
-- 검증 : 시스템에 대한 모든 요구사항과 분석 내용들이 정확히 반영되고 기능들이 정상적으로
             수행되는지 검증한다.



데이터 변환
ㅇ 데이터 무결성 체크가 가장 중요
ㅇ 데이터 전환
ㅇ 불필요 필드 제거
ㅇ 데이터 타입 및 길이 변환
ㅇ 서로 다른 포맷 통일
ㅇ 계산된 값 추가
ㅇ 키체계 변환

-- 타겟시스템에 맞는 데이터로의 변환에서 무결성 체크가 가장 중요한다.
-- 데이터 전환 예 : 주소에서 시/군/구/동/번지로의 Split
-- 데이터 타입 및 길이 변환 예 : mm/dd/yy, yy/mm/dd를 yyyy/mm/dd로 변환
-- 서로 다른 포맷 통일 예 : 남/녀, 1/0, Mail/Femail을 M/F로 통일
-- 계산된 값 추가 예 : 매출 단가 * 매출 개수의 매출액을 미리 계산해서 추가
-- 키체계 변환 예 : 주민번호, 고객번호, 여권번호등을 고객번호로 통일


데이터 정제
ㅇ 데이터 오류 유형
ㅇ 데이터 오휴 해결 방법

-- 데이터 오류의 유형 : 오타, 필드 손실, 필드 추가로 인한 Null Value, 갱신이 안된 데이터,
    표준화 오류 등
-- 데이터 오류 해결 방법
    ㅇ 수작업 : 많은 시간과 비용, 보다 심각한 데이터 오류의 발생 가능성 존재
    ㅇ 도구 : 특정 오류나 공통 오류 수정 자동화



데이터 정제 프로세스
ㅇ 데이터 현황 조사
ㅇ 데이터 품질 기준 작성
ㅇ 데이터 합리화 분석
ㅇ 데이터 수정 & 변환
ㅇ 데이터 검증

-- 데이터 현황 조사 : 필수 항목 내역 조사, 대상 테이블/데이터 선정 등
-- 데이터 품질 기준 작성 : 업무 규칙에 따른 품질 기준 작성
    ※BR(Business Rule) : 업무 규칙에 의해 적용되는 데이터 품질 기준
-- 데이터 합리화 분석 : 데이터 관리부서, 용도 등에 대한 분석
-- 데이터 수정 & 변환 : 코딩이나 도구를 통해 수행
-- 데이터 검증 : 검증 절차 수립과 체계적 테스트



데이터 전송
ㅇ 오프라인 방식
ㅇ 온라인 방식
ㅇ 디스크 공유 방식

-- 오프라인 방식 : 소스시스템에서 SAM 파일로 데이터를 추출하고 SAM 파일을 타겟시스템으로 전송
    한 후 SAM 파일을 통해서 데이터를 로딩한다.
-- 온라인 방식 : 소스시스템과 타겟시스템을 직접 연결하여 데이터를 전송한다.
    (오라클의 DBLINK, 씨퀄의 Linked Server)
-- 디스크 공유 방식 : 소스시스템에서 추출된 SAM 파일을 독립된 디스크에 저장하고 타겟시스템에서
    디스크의 SAM 파일에 접근해서 로딩한다.
    (씨퀄의 로그시핑과 비슷하게 동작)

반응형

+ Recent posts