/*******************************************************************************************************************
-- Title : [ML] 기계학습의 개념과 대표 알고리즘
-- Reference : acorn, googling
-- Key word : ml machine learning label 알고리즘 algorithm crisp-dm feature 특질 traning set 기계학습
기계 학습 머신러닝 머신 러닝 라벨링
*******************************************************************************************************************/
■ Tom Mitchell, 1997
"만약 작업 T에 대해 기준 P로 측정한 성능이 경험 E로 인해 향상되었다면, 그 프로그램은 작업 T에 대해
기준 P의 관점에서 경험 E로부터 "배웠다"라고 말할 수 있다." - 톰 미첼, Machine Learning, (1998)
"A computer program is said to learn from experience E with respect to some task T and some
performance measure P, if its performance on T, as measured by P, improves with experience E"
* Machine Learning Phases
* feature extractor
- 정규화 의미
- 사용/분석 가능한 혀앹로 추출
■ Table vs. Training Set 비교
* Row = Record = Tuple vs. Occurrence
* Column = Field vs. Feature = Variables
- feature : 관찰 대상에게서 발견된 개별적이고 측정가능한 경험적(heuristic) 속성
* Columns = Fields vs. Feature Set = Feature Vector
* Labeling : Training시 질문(Training Input) 과 정답(Training Output)이 모두 주어진 경우 라벨링 되어 있다고 함
* Label : 답을 가지고 있는 변수
■ Data Science
* 통계학에서는 Statistics Learning으로 표현하기도(ML과 유사).
* Statistics vs. ML
■ CRISP-DM
* Cross Industry Standard Process for Data Mining
■ Machine Learning의 종류
* 전반적 종류
- Supervised(지도), Unsupervised(비지도), Semisupervised(반지도), Reinforcement Learning
- Online vs. Batch Learning
- Instance-based vs. Model-based Learning
* Supervised vs. Unsupervised Learning
- Labeling(질문과 정답을 제공)에 의한 학습이 Supervised
- 질문과 제공하는 경우 Unsupervised Learning
* 대표 알고리즘
* Instance-based vs. Model-based Learning
- Instance-based Learning = Memory-based Learning
(K-nearest, Kernel, RBF Network, KNN)
- Model-based Learning(문제 해결을 위해 기존 알고리즘의 선택)
("inference")
■ Feature 추출
* Categorical 변수로부터의 feature 추출
- one-of-K or one-hot encoding 방식
- 대중소를 100, 010, 001식으로 처리
* Text로부터의 feature 추출
- bag-of-words representation
- stop-word filtering
- stemming & lemmatization
- TF-IDF weights를 이용한 bag-of-words 확장
- hashing trick을 이용한 space-efficient feature vectorizing
(Tokenization - Normalization - POS|TF_IDF|VSM|Cosine Similarity)
* 이미지로부터의 feature 추출
- pixel intensities로 부터의 feature 추출
- points of interest를 feature로서 추출
- SIFT(scale-invariant feature transform)와 SURF(robust features)
* Data Standardization
■ scikit-learn algorithm cheat-sheet