[NLP] NLTK에서의 Tokenizer의 종류

2017. 2. 18. 20:01

/*******************************************************************************************************************
-- Title : [NLP] NLTK에서의 Tokenizer의 종류
-- Reference : excelsior-cjh.tistory.com
-- Key word : nlp nltk token tokenize tokenizer 자연어 처리 토큰 sent_tokenize word_tokenize
정규식 정규표현식 정규 표현식 regular expression tokenizing 토크나이저
*******************************************************************************************************************/

-- Tokenizing
* 문자열을 여러개의 조각(Token)으로 쪼개는 것.
* Token은 문자열의 한 조각으로 '단어 Token'이나 '문장 Token' 등으로 분리.

-- Tokenizing paragraph into sentence
* 구문을 문장 단위로 분리 - "마침표(.) + 공백"인 경우 분리.
* sent_tokenize() 함수로 처리.

-- Tokenizing sentence into word
* 문장을 단어 단위로 분리
* word_tokenize() 함수로 처리 - 공백(Space)과 구두점(comma, dot) 기준으로 분리.

-- Tokenizer의 종류

* WordPunctTokenizer : word_tokenize() 대안으로 모든 구두점(punktuation)으로 분리.
* RegexpTokenizer : 정규표현식(dbrang.tistory.com/1152)을 이용한 분리.
* WhitespaceTokenizer : 공백을 매칭하여 분리.

--

저작자표시 비영리 변경금지

디비랑[dɪ'bɪraŋ]

[NLP] NLTK에서의 Tokenizer의 종류

+ Recent posts

티스토리툴바