반응형
/********************************************************************************************
-- Title : (dBNuri) 데이터마이닝 개요
-- Reference : OLAP 테크놀로지(SigmaInsight.조재희.박성진)
                     00000 교육센터 Mining 교육과정
                     외 다수 Mining 관련 블로그 및 사이트
-- Key word : 데이터마이닝 data mining
********************************************************************************************/
-- 아래 내용들은 상단에 언급된 레퍼런스를 참조한 것들이고 잘못 이해한 것들이 있을 수 있습니다.
-- 틀린 부분은 언제나 Feedback 주십시오..^^



1. 데이터마이닝의 정의

    데이터마이닝은 대용량의 Data에 존재하는 Data간 관계나 패턴, 규칙 등을 찾아내고 모형화해서 기업의 경쟁력 확보를 위한 유용한 정보로 변환하는 일련의 과정을 말한다. (Gartner Group)

'' 고객의 구매 경향이나 패턴 등을 분석해서 고객에 맞는 마케팅을 진행하는 것을 예로 들 수 있습니다. 비즈니스에서만 쓰이는게 아니라 의학, 과학, 공학, 연구소, 통계, 기술분야 등등에 많이 쓰이네요.. 제가 다니는 곳에서도 국가 기술에 대한 Clustering이나 Decision Tree를 서비스하고 있네요...^^ "



2. 데이터마이닝의 출현배경

    각 기업들의 운영계에서 수집된 데이터가 이제는 정보 분석을 수행하기에 충분한 용량의 데이터가 축적되고, 기업들 간의 경쟁이 가중되면서 경쟁력 확보를 위한 유용한 정보의 필요성이 요구되면서 DW나 마이닝과 같은 분야에 대한 투자가 유도되고 있다.



3. 데이터마이닝의 특징

    데이터마이닝은 다음과 같은 특징을 가지고 있다.

ㅇ 대용량의 관측 가능한 자료를 다룬다.
    - 시간의 흐름에 따라 비계획적으로 축적되며 자료분석을 염두에 두고 수집되지 않는 것을 일반적
      으로 다룬다.
ㅇ 컴퓨터 중심적 기법이다.
    - 컴퓨터의 강력한 처리속도와 능력을 활용할 수 있도록 해준다.
ㅇ 경험적 방법에 근거하고 있다.
    - 어떤 이론적인 원리에 기초한 것이 아닌 경험에 기초하여 개발된다.
ㅇ 일반화에 초점을 두고 있다.
    - 예측모형이 새로운 데이터에 잘 적용되도록 일반화하여 마이닝의 비정형성을 보완한다.

" 작은 경험으로 비추어 경험적 방법과 일반화라는 특징이 가장 크게 다가옵니다. 마이닝이 유용한 정보를 얻기 위한 과정이지만 어떤 답을 내놓는 것은 아니더라구요. 다만 사용자가 마이닝 자료를 보고 스스로 판단해야 하는데 그 자료를 만들어 내는데 있어 경험적 방법을 반영하고 쉽게 읽어 낼 수 있게 일반화(정형화?)하는게 중요하다는데 한 표! 입니다. "



4. 데이터마이닝 작업유형

    데이터마이닝 작업유형은 데이터를 분석하여 어떤 종류의 정보를 찾고자 하는가에 따라 구분된다.

ㅇ Classification(분류화)
    - 과거 데이터를 토대로 분류별 특성을 찾아 분류 모형을 만들고, 이를 토대로 새로운 데이터의 
      분류값을 예측한다.
      (Fraud Detection, Credit Risk, Decision Tree, Neural Network 등)
    - 신용회사에서 과거 데이터를 기준으로 우수/보통/불량으로 분류하는데 우수고객은 40대 남성
      으로 자녀가 1명이고 월 평균 수입이 300만원 이상이면 우수고객일 때, 신규 고객의 신용 평가
      에 활용한다.
ㅇ Clustering(군집화)
    - 데이터들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업을 말한다.
      (Neural Network, Statistics 등)
    - A지역에 사는 사람들은 나이가 55세 이상이고 월 평균 수입이 300만원 이상이며 레져 생활을
      즐긴다. A지역에 맞는 레져 마케팅을 한다.
ㅇ Associations(연관 규칙)
    - 한 항목을 알 경우 다른 항목을 예측할 수 있는 규칙으로 장바구니 분석이라고도 한다.
      (Cross Selling, Display, Attached Mailing, Market Basket 등)
    - 기저귀 판매량이 증가할 때 맥주 판매량도 증가한다. 그러므로 기저귀와 맥주를 같이 진열한다.
ㅇ Sequential Patterns(연속 규칙)
    - Associations(연관 규칙)에 시간 관련 정보가 포함된 형태를 말한다.
      (Target Marketing, One-To-One Marketing 등)
    - 새 냉장고를 구입한 고객은 1달 내에 오븐을 구입하는 경우가 25%이다. 냉장고를 구매한 고객
      에게 오븐과 비슷한 종류의 제품을 홍보한다.



5. 데이터마이닝 알고리즘

    데이터마이닝 알고리즘에는 다음과 같은 것들이 있다.

ㅇ Decision Tree(의사결정트리)
    - 분류 또는 예측을 목적으로 할 수 있으나, 주로 분석과정의 설명이 필요한 경우에 유용하다.


ㅇ Clustering Analysis(군집분석)
    - 개인 또는 개체 중에서 유사한 것들을 몇몇의 집단으로 그룹화하여 각 집단의 성격을 파악함
      으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 방법이다.


ㅇ Market Basket Analysis(연관성분석)
    - 하나의 거래나 사건에 포함되어 있는 항목들의 관련성을 파악해서 둘 이상의 항목들로 구성된
      연관성 규칙을 통한 탐색적 자료 분석 방법이다.
ㅇ Newral network(신경망모형)
    - 인공지능의 핵심으로 다른 알고리즘이 놓친 데이터의 제 관계를 밝히는데 사용되며 직관적으로
      파악할 수 없는 관계를 찾아내는 분석 방법이다.
ㅇ Statistic Model(전통적 통계 모델)
ㅇ Genetic Algorithm(유전 알고리즘)
ㅇ Visualization(시각화)
ㅇ K-nearest Neighbor
ㅇ Rule Induction

데이터마이닝 알고리즘은에 대해서는 많은 연구기관에서 논문으로 발표되고 있네요.. 고로 제가 하나하나 설명하기에는 어렵네요. 관심 있으시면 깊은 공부 바랍니다..^^;;;; 아래는 MS에서 제공하는 알고리즘임돠."




6. 데이터마이닝 프로세스

    데이터마이닝은 1)해결해야 할 비즈니스 문제를 정의하는 문제 정의, 2)대량의 데이터에서 필요한 데이터만 추출하는 선별 및 정제, 3)데이터를 분석에 적합한 형태로 컨버팅하는 변환, 4)데이터마이닝 알고리즘 적용, 5)마이닝 결과를 분석하고 적합한 결과가 도출되었는지 확인하는 해석 및 평가, 6)타당성이 검증된 데이터의 패턴과 규칙을 비즈니스에 적용하는 통합단계의 프로세스로 진행된다.




7. OLAP vs. Data Mining

    OLAP과 Data mining은 아래 표와 같은 차리점을 가지지만 필요에 따라서는 OLAP과 데이터마이닝이 결합한 형태로 구축되곤 한다.

OLAP Data Mining 
 ㅁ 검증형 기법(Verification Driven)
    ㅇ 미리 정해진 기준 따라 데이터 탐색
    ㅇ 각 권역별 냉장고 매출액은?
 ㅁ 발견형 기법(Discovery Driven)
    ㅇ 방대한 데이터속에 숨겨진 패턴 인식
    ㅇ 매출액에 영향을 미치는 요소는?
 ㅁ 가설의 설정
    ㅇ 사용자가 필요한 가설을 설정
 ㅁ 가설의 생성
    ㅇ 데이터마이닝 툴이 자동적으로 가설을 설정
 ㅁ 사용자 중심
    ㅇ 사용자가 데이터 분석의 주도권
 ㅁ 컴퓨터 중심
    ㅇ 시스템이 데이터 분석의 주도권



8. 데이터마이닝 분석 툴 셈플

   
ㅁ Decision Tree와 Clustering이 접목된 Tool

<참조 : ㈜WIPS - Citation Visualization.>


ㅁ Clustering을 활용한 2항목의 크로스 비교 Tool

<참조 : ㈜WIPS - Cross matrix>

반응형

+ Recent posts