반응형

/********************************************************************************************
-- Title : [TM] Text Mining을 이용한 표준특허기술 유사도 측정 방법
-- Reference : 한국정보통신기술협회 TTA 안정은님
-- Key word : 텍스트 마이닝 텍스트마이닝 text mining 표준 특허 유사도
********************************************************************************************/

■ 요약

최근 핵심원천기술의 표준특허 미확보에 따른 기술무역수지 불균형 문제가 대두되면서, 국가기술경쟁력 강화를 위해 특허기술을 국제표준화와 연계하는 산업화 관점의 새로운 전략이 관련 정부부처를 중심으로 다양하게 모색되고 있다. 이와 함께 표준특허에 관한 법제도적 측면의 연구뿐만 아니라 "국가R&D사업-특허-표준화 연계"를 위한 많은 연구가 진행되고 있다. 그러나 표준특허는 특정한 정의가 없어 해석하는 자의 자의적 해석에 따라 다르게 정의되고 있다. 또한 표준특허기술을 선별하기 위한 표준기술과 특허기술의 유사성 측정도 정형화된 방법이 없고 이와 관련한 연구 또한 전무한 상태이다. 따라서 본 논문은 신뢰성 있는 표준특허를 선별하기 위한 방법으로, 표준기술과 특허기술의 각각의 키워드 및 문장의 유사성을 분석하여 유사도(Similarity)를 측정하는 정형화된 유사성 측정벙법과 상식을 개발하여 제안한다.


 주요용어설명

표준특허 - 해석하는 자의 자의적 해석에 따라 다르게 정의되고 있다. 하지만 궁극적으로 지향하는 바는 표준규격의 기술적 구현이 가능하고 권리침해를 받았을 경우 적극적으로 대응하고 권리주장이 가능한 내용을 포함하고 있다. 이에 표준문서(기술을 승인받기 위한 문서)와 특허청구항(기술에 대한 명시 사항)을 비교하는 기술이 시급하나, 아직 국내에선 이에 대한 연구가 미비한 상태이다.

Text Mining 기법 - 거대항 양의 정보들을 자동으로 수집, 분석, 처리하여 사용자가 원하는 정보를 보다 빠르고 정확하게 제공하기 위해서 정보검색엔진이 주로 활용된다. 현재 정보검색엔진은 주로 키워드 매칭을 기반으로 사용자 요구에 따라 정보를 나타내는데 검색의 정확도를 높이기 위한 방법으로 Text Mining을 사용한다.

일반적인 텍스트마이닝의 특징은 입력 데이터인 텍스트의 특성을 추출하여 명사 위주의 키워드를 Vector 형태로 표현하고 검색하고자 하는 텍스트를 데이터들의 유사성을 활용하여 자동군집한 다음, 새로운 정보를 생성하는 것이다.

정보를 추출하는 기술은 여러가지 변형 패턴이 잇는 언어표현을 정규화하여 표시하는 "Regular Expression" 방법이 일반적이다.

특성 추출(Feature Extraction)에서 많이 활용되는 모형은 각 키워드간의 연관 관계를 고려하지 않은 형태를 추상화하는 "Bag of Words Model"이다. 이 모형은 자연어 처리 및 정보 검색에서 사용되는 텍스트 간략화/추상화를 위한 거정으로 여기에서 텍스트는 순서가 없는 단어의 집합으로 가정되고 문법 및 단어 순서는 무시된다. 이를 통해 추출된 결과는 단어 별로 빈도 등의 가중치를 적용하게 된다.


 주요기술


특허청구항과 표준기술에서 추출된 키워드는 키워드 각각의 빈도수를 구해 순위를 결정하고 이를 그룹화하여 가중치를 계산한다. 그룹화된 키워드들은 순위에 따라 중요도를 다시 평가하여 가장 높은 중요도로 평가된 최종 키워드들은 순서대로 단어벡터로 표현되어 저장된다.

키워드의 중요도를 계산하는 식은 다음과 같다.

w : 특허청구항 j에서의 키워드 i의 중요도

f :특허청구항 j에서 i가 나타난 빈도

N : 전체 특허청구항의 개수

n : 키워드 i가 나타난 특허청구항의 개수

특허청구항의 키워드 q와 표준문서의 키워드 d 사이의 유사도 Simiarity는 아래와 같이 계산된다.

q : 특허청구항의 키워드 벡터

d : 표준기술의 키워드 벡터

이러한 방법으로 유사정도를 판단하게 되고, 해당 특허청구항들과의 모든 유사성을 비교한 후 이 중 유사도가 가장 큰 것을 자의적으로 보고 판단하는 형식의 시스템이다. 그러나 이러한 방식은 계량적이고 통계적인 접근법은 아니기에 지속적인 추가연구를 제안한다.


반응형

+ Recent posts