KM+ 소개

1. KnowledgeMatrix Plus 소개
KnowledgeMatrix Plus (이하 KM+)는 논문, 특허 등 구조화된 텍스트 데이터에서 필요한 정보를 쉽게 추출하여, 데이터 전처리와 네트워크 분석을 효율적으로 지원하는 과학계량 분석 소프트웨어입니다.
본 소프트웨어는 전문적인 지식이 없어도 구조화된 텍스트 정보를 쉽게 분석할 수 있도록 한국과학기술정보연구원(KISTI) 글로벌R&D분석센터에서 주관하여 개발하였습니다.
1.1 개발 배경 및 목적
논문, 특허 등 텍스트 기반 데이터의 분석에서 일반적으로 데이터 전처리와 분석 도구에 맞는 입력 데이터 준비에 가장 많은 시간이 소요됩니다. KnowledgeMatrix Plus (KM+)는 이러한 과정을 체계적이고 자동화된 방식으로 지원하여, 연구자가 쉽고 효율적으로 연구 동향 및 네트워크 분석을 수행할 수 있도록 돕습니다. 특히, 기존의 해외 과학계량 분석 소프트웨어는 한글 처리가 어려웠으나, KM+는 이러한 문제를 해결해줍니다. KM+의 주요 활용 목적은 다음과 같습니다.
- 한글/영문 데이터 처리: 영어뿐만 아니라 한글 자연어 처리를 지원하여 국내 연구 환경 분석을 지원합니다.
- 분석 효율성 증대: 복잡한 데이터 전처리 과정을 자동화하여 연구자가 데이터 해석과 통찰 도출에 집중할 수 있도록 지원합니다.
- 호환성 강화: 다양한 오픈 소스 네트워크 분석 도구(VOSviewer, Gephi, Pajek)용 데이터를 생성하여 원활한 연계를 지원합니다.
2. 주요 기능 및 특징
KM+는 데이터를 입력받아 네트워크 분석 도구에서 활용 가능한 형태로 변환하는 전 과정을 지원합니다.
2.1 데이터 전처리
- 형태소 분석: Apache OpenNLP(영문)와 아리랑 형태소 분석기(한글)를 탑재하여, 논문/특허의 요약문이나 일반 텍스트에서 명사(구)를 추출합니다.
- 데이터 정제: 데이터 축소 및 확장, 불용어 처리, Stemming(어근 추출), 시소러스(유의어) 처리를 통해 데이터를 표준화합니다.
- 중복 제거 및 집합 관리: 합집합, 교집합 만들기 기능을 통해 프로젝트 간 데이터를 효율적으로 병합하거나 비교할 수 있습니다.
2.2 다양한 행렬 생성
- 2D Matrix: 행과 열의 필드를 지정하여 Raw Record 기반의 동시 출현 행렬 생성을 지원합니다.
- Multi List: 3개의 필드를 조합한 리스트를 생성하여 입체적인 데이터 분석을 지원합니다.
2.3 외부 분석 도구와의 연계
KM+로 생성된 데이터는 별도의 변환 과정 없이 대표적인 네트워크 분석 및 시각화 소프트웨어에서 즉시 활용할 수 있습니다.
- 지원 포맷: Excel, CSV, .NET/CLU/VEC (Pajek), .GEXF (Gephi), VOSviewer 등.
- 속성 데이터 포함: 네트워크 분석 시 노드의 속성(레코드 수)이나 집단(Partition) 정보까지 함께 출력합니다.
2.4 데이터 처리 성능
- Web of Science 기준 약 25,000건의 논문 데이터를 안정적으로 처리할 수 있으며, 데이터 형식에 따라 최대 수십만 건의 데이터 처리가 가능합니다.
- 단, 개별 PC사양에 따라 데이터 처리 성능은 다를 수 있습니다.
3. 개념도

- 본 이미지는 Google Gemini(Gemini 3 Flash)를 활용하여 생성되었습니다.
4. 주요 활용 프로세스
KM+를 활용한 정보 분석은 다음과 같은 흐름으로 진행됩니다.
- 데이터 수집 (Import): Web of Science, Scopus, OpenAlex, Dimensions, NTIS, ScienceON, 빅카인즈, PubMED, KCI, KIPRIS 등 다양한 구조화된 데이터를 불러옵니다.
- 데이터 전처리 (Pre-processing): 자연어 처리, 스테밍, 시소러스 적용 등을 통해 분석에 적합한 형태로 데이터를 가공합니다.
- 리스트 생성 (List): 선택한 필드별 레코드 수를 리스트로 확인합니다.
- 행렬 생성 (Matrix Generation): 분석 목적에 알맞게 1-mode 또는 2-mode 행렬을 생성합니다.
- 데이터 내보내기 (Export): 생성된 행렬을 Pajek, VOSviewer, Gephi 에 반입할 수 있는 파일로 내보내어 네트워크 구조를 시각화하고 심층 분석을 수행합니다.