/********************************************************************************************
-- Title : [TM] Text Mining을 이용한 표준특허기술 유사도 측정 방법
-- Reference : 한국정보통신기술협회 TTA 안정은님
-- Key word : 텍스트 마이닝 텍스트마이닝 text mining 표준 특허 유사도
********************************************************************************************/
■ 요약
■ 주요용어설명
Text Mining 기법 - 거대항 양의 정보들을 자동으로 수집, 분석, 처리하여 사용자가 원하는 정보를 보다 빠르고 정확하게 제공하기 위해서 정보검색엔진이 주로 활용된다. 현재 정보검색엔진은 주로 키워드 매칭을 기반으로 사용자 요구에 따라 정보를 나타내는데 검색의 정확도를 높이기 위한 방법으로 Text Mining을 사용한다.
일반적인 텍스트마이닝의 특징은 입력 데이터인 텍스트의 특성을 추출하여 명사 위주의 키워드를 Vector 형태로 표현하고 검색하고자 하는 텍스트를 데이터들의 유사성을 활용하여 자동군집한 다음, 새로운 정보를 생성하는 것이다.
정보를 추출하는 기술은 여러가지 변형 패턴이 잇는 언어표현을 정규화하여 표시하는 "Regular Expression" 방법이 일반적이다.
특성 추출(Feature Extraction)에서 많이 활용되는 모형은 각 키워드간의 연관 관계를 고려하지 않은 형태를 추상화하는 "Bag of Words Model"이다. 이 모형은 자연어 처리 및 정보 검색에서 사용되는 텍스트 간략화/추상화를 위한 거정으로 여기에서 텍스트는 순서가 없는 단어의 집합으로 가정되고 문법 및 단어 순서는 무시된다. 이를 통해 추출된 결과는 단어 별로 빈도 등의 가중치를 적용하게 된다.
■ 주요기술
특허청구항과 표준기술에서 추출된 키워드는 키워드 각각의 빈도수를 구해 순위를 결정하고 이를 그룹화하여 가중치를 계산한다. 그룹화된 키워드들은 순위에 따라 중요도를 다시 평가하여 가장 높은 중요도로 평가된 최종 키워드들은 순서대로 단어벡터로 표현되어 저장된다.
키워드의 중요도를 계산하는 식은 다음과 같다.
w : 특허청구항 j에서의 키워드 i의 중요도
f :특허청구항 j에서 i가 나타난 빈도
N : 전체 특허청구항의 개수
n : 키워드 i가 나타난 특허청구항의 개수
특허청구항의 키워드 q와 표준문서의 키워드 d 사이의 유사도 Simiarity는 아래와 같이 계산된다.
q : 특허청구항의 키워드 벡터
d : 표준기술의 키워드 벡터
이러한 방법으로 유사정도를 판단하게 되고, 해당 특허청구항들과의 모든 유사성을 비교한 후 이 중 유사도가 가장 큰 것을 자의적으로 보고 판단하는 형식의 시스템이다. 그러나 이러한 방식은 계량적이고 통계적인 접근법은 아니기에 지속적인 추가연구를 제안한다.