반응형

/*******************************************************************************************************************
-- Title : [ML] 기계학습의 개념과 대표 알고리즘
-- Reference : acorn, googling
-- Key word : ml machine learning label 알고리즘 algorithm crisp-dm feature 특질 traning set 기계학습
                  기계 학습 머신러닝 머신 러닝 라벨링
*******************************************************************************************************************/

■ Tom Mitchell, 1997
    "만약 작업 T에 대해 기준 P로 측정한 성능이 경험 E로 인해 향상되었다면, 그 프로그램은 작업 T에 대해
     기준 P의 관점에서 경험 E로부터 "배웠다"라고 말할 수 있다." - 톰 미첼,  Machine Learning, (1998)

    "A computer program is said to learn from experience E with respect to some task T and some
     performance measure P, if its performance on T, as measured by P, improves with experience E"


    * Machine Learning Phases
    * feature extractor
        - 정규화 의미
        - 사용/분석 가능한 혀앹로 추출


■ Table vs. Training Set 비교
    * Row = Record = Tuple vs. Occurrence
    * Column = Field vs. Feature = Variables
        - feature : 관찰 대상에게서 발견된 개별적이고 측정가능한 경험적(heuristic) 속성
    * Columns = Fields vs. Feature Set = Feature Vector
    * Labeling : Training시 질문(Training Input) 과 정답(Training Output)이 모두 주어진 경우 라벨링 되어 있다고 함
    * Label : 답을 가지고 있는 변수


■ Data Science

   
    * 통계학에서는 Statistics Learning으로 표현하기도(ML과 유사).
    * Statistics vs. ML
      


■ CRISP-DM
    * Cross Industry Standard Process for Data Mining
      

    


■ Machine Learning의 종류

    * 전반적 종류
        - Supervised(지도), Unsupervised(비지도), Semisupervised(반지도), Reinforcement Learning
        - Online vs. Batch Learning
        - Instance-based vs. Model-based Learning

    * Supervised vs. Unsupervised Learning
        - Labeling(질문과 정답을 제공)에 의한 학습이 Supervised
        - 질문과 제공하는 경우 Unsupervised Learning
        

    * 대표 알고리즘

      

      

       

    * Instance-based vs. Model-based Learning
        - Instance-based Learning = Memory-based Learning
          (K-nearest, Kernel, RBF Network, KNN)
        - Model-based Learning(문제 해결을 위해 기존 알고리즘의 선택)
          ("inference")


■ Feature 추출
    * Categorical 변수로부터의 feature 추출
        - one-of-K or one-hot encoding 방식
        - 대중소를 100, 010, 001식으로 처리

    * Text로부터의 feature 추출
        - bag-of-words representation
        - stop-word filtering
        - stemming & lemmatization
        - TF-IDF weights를 이용한 bag-of-words 확장
        - hashing trick을 이용한 space-efficient feature vectorizing
          (Tokenization - Normalization - POS|TF_IDF|VSM|Cosine Similarity)

    * 이미지로부터의 feature 추출
        - pixel intensities로 부터의 feature 추출
        - points of interest를 feature로서 추출
        - SIFT(scale-invariant feature transform)와 SURF(robust features)
  
    * Data Standardization


■ scikit-learn algorithm cheat-sheet



반응형

+ Recent posts