BLOG

텍스트마이닝

2021-09-08




텍스트 마이닝


뉴스기사, 기술문서, 블로그, 이메일, SNS, 웹페이지 등 많은 정보들이 비정형 데이터 형식으로 저장된다. 이렇게 저장된 정보에서 특정 주제와 관련한 부분을 뽑아 의미를 분석하고 고품질의 정보를 도출하기 위한 방법으로 텍스트 마이닝 기법을 활용한다.

텍스트 마이닝은 일반적으로 정보수집 – 데이터 전처리 – 데이터 분석 – 시각화 과정으로 수행되며, 많이 사용되는 자연어 처리 기반 텍스트 마이닝은 크게 4가지로 구분된다. 


  • 단어 빈도 분석
    가장 기본적이고 쉽고 보편적으로 활용되는 방법이다. 본격적인 텍스트 분석 전, 데이터에 대한 이해와 흐름을 살펴보기 위한 기초분석으로, 전체 문서 또는 문서별 단어 출현 빈도를 보여준다. 단순 빈도분석 뿐만 아니라 통계적 또는 딥러닝 기반 워드 임베딩을 고려한 핵심 단어 도출도 가능하다.


  • 군집 분석
    유사한 데이터들을 서로 묶어주는 분석방법이다. 대량의 데이터들을 서로 비슷한 성격끼리 묶을 수 있다. 군집화는 기본적으로 비지도 학습이다. 이미 정답 또는 라벨이 정해진 것을 학습하는 지도학습과 달리, 라벨이 없는 데이터를 통해 컴퓨터가 스스로 특징을 잡아낸다.  많은 군집분석 알고리즘이 있지만, 주로 분할 군집분석과 구조적 군집분석이 쓰인다. 텍스트 마이닝에서는 토픽 모델링이라고도 많이 불리운다. 유사한 토픽들을 지니는 단어, 문서들을 모아주어 방대한 문서들 안에 주요한 토픽만 제시해준다.


  • 감성 분석
    데이터에 나타난 주관성 요소를 탐지하여 긍정과 부정의 요소 및 그 정도성을 판별할 수 있다. 긍정과 부정의 대상이 되는 단어 또는 개체를 추출하고 감정을 표현한다. 또한 단순 긍부정 이외에도 놀람, 화남, 기쁨과 같이 사람의 감성을 분류해주기도 한다. 사전기반 감성분석과 지도 기계학습 기반 감성분석이 있다.


  • 사전 기반 감성분석은 감성 사전을 이용하여 텍스트에 담긴 감성을 분석한다. 감성 사전은 단어와 감성지표를 대응시켜 놓은 자료이다. 사전 기반 분석에서는 감성 사전의 이용이 필수적이다.

  • 지도 기계학습 기반 감성분석은 머신러닝의 종류 중 하나인 지도학습에 해당하는 기법들을 감성분석에 적용하는 것을 말한다. 지도학습은 이미 라벨링이 완료된 훈련 데이터를 필요로 하기에, 훈련 데이터를 통해 생성한 모델이 감성 사전의 역할을 하게 되는 것이다.

  • 연관어 분석
    연관어 분석은 두 개의 단어가 주어진 문맥에서 서로 얼마나 연관되어 있는지 분석하는 기법이다. 두 단어가 같은 문서에서 함께 출현하는 횟수를 세는 방법도 있고 유사도를 이용해서 연관성을 판별할 수도 있다. 이를 네트워크로 시각화하여 보여주는게 일반적이다.


4차 산업과 빅데이터 분석기술의 발전에 힘입어 텍스트 데이터는 새로운 정보의 원천이 되었다.텍스트 데이터를 분석하면 기존 통계자료에서 얻을 수 없었던 다양한 정보들을 취득할 수 있고, 비용이나 효율성 측면에서도 우월하다. 이러한 텍스트 마이닝은 현재 리스크 관리, 지식 경영, 사이버 범죄 예방, 고객 관리 서비스, 클레임 분석, 컨텐츠 강화 등 다양한 분야에서 활용되고 있다.

하지만 텍스트 마이닝은 텍스트를 거시적 관점에서 바라보기 때문에 텍스트의 의미를 정교하게 파악하기 힘들다는 한계를 가진다. 또한 데이터의 양이 많은 것이 일반화의 근거가 되지는 못한다. 따라서 데이터 정제와 인간의 통찰력을 바탕으로 결과물을 지속적으로 다듬어 나가야 확실한 데이터 분석이 이루어질 수 있다. 이미 우리 실생활에서 다양하게 활용되고 있는 텍스트 마이닝의 한계를 극복하여 데이터를 좀더 넓은 관점에서 바라보고 인사이트를 얻을 수 있기를 기대한다.

사업자등록번호 : 492-04-01429ㅣ업태 : 정보통신업ㅣ데이터베이스 및 온라인 정보 제공업 ㅣseo_daeho@naver.com ㅣ 대표 :서대호

서울특별시 구로구 디지털로34길 55, 715호(구로동, 코오롱싸이언스밸리2차)  문의 010-8598-7735 / 010-7130-2441