반응형

/*******************************************************************************************************************
-- Title : [NLP] NLTK에서의 Tokenizer의 종류
-- Reference : excelsior-cjh.tistory.com
-- Key word : nlp nltk token tokenize tokenizer 자연어 처리 토큰 sent_tokenize word_tokenize
                  정규식 정규표현식 정규 표현식 regular expression tokenizing 토크나이저
*******************************************************************************************************************/

-- Tokenizing
    * 문자열을 여러개의 조각(Token)으로 쪼개는 것.
    * Token은 문자열의 한 조각으로 '단어 Token'이나 '문장 Token' 등으로 분리.

-- Tokenizing paragraph into sentence
    * 구문을 문장 단위로 분리 - "마침표(.) + 공백"인 경우 분리.
    * sent_tokenize() 함수로 처리.

-- Tokenizing sentence into word
    * 문장을 단어 단위로 분리
    * word_tokenize() 함수로 처리 - 공백(Space)과 구두점(comma, dot) 기준으로 분리.

-- Tokenizer의 종류



    * WordPunctTokenizer : word_tokenize() 대안으로 모든 구두점(punktuation)으로 분리.
    * RegexpTokenizer : 정규표현식(dbrang.tistory.com/1152)을 이용한 분리.
    * WhitespaceTokenizer : 공백을 매칭하여 분리.



-- 




반응형

+ Recent posts