BLOG

웹 크롤링과 빅데이터 분석

2021-07-29


빅데이터에 대한 지속적인 관심과 시도들은 다변화된 현대 사회를 보다 정교하게 예측하고 효율적으로 작동하도록 정보를 제공한다. 특히, 과학적 의사 결정의 토대가 되는 빅데이터 분석은 기업가 국가의 생산성 향상에 기여하는 혁신도구로 각광받고 있다. 기업체들은 자사의 경영 전략에 데이터 분석을 도입하여 수익 증대를 실현하며, 공공영역에서는 높은 사회적, 경제적 효과가 발생할 것으로 예상된다. 본 글에서는 데이터 수집의 기초가 되는 크롤링에 대해 알아보고자 한다.


많은 사람들이 크롤링과 스크래핑을 혼용하여 사용하고 있지만, 사실은 의미가 상이한 용어이다. 크롤링의 Craw는 기어가다는 사전적 의미를 가지고 있으며, ing가 붙으면서 웹을 돌아다니며 데이터를 수집해오는 작업이라고 해석할 수 있다. 크롤링의 대상은 우리가 접근 가능한 웹 사이트이고 해당 웹 사이트에서 표현되는 모든 데이터를 전부 가져오는 것이다.

스크래핑은 스크린에 보여지는 데이터 중에서 필요한 데이터만 추출하도록 만들어진 프로그램이다. Scrap은 조각이라는 사전적 의미를 지니고 있으며, 우리가 흔히 쓰는 ‘스크랩하다’ 라는 말을 떠올리면 쉽게 이해가 가능하다. 이처럼 스크래핑에서 중요한 것은 ‘필요한 데이터만 추출’한다는 것이다.

하지만 전문 개발자가 아니라면 정확하게 구분할 필요는 없기에 여기서는 이해하기 쉽게 모두 크롤링이라고 지칭하겠다. 그리고 이러한 크롤링을 해주는 프로그램을 크롤러라고 한다.


데이터를 분석하는 과정에서 단순 반복 과정을 기술의 도움없이 진행한다면 일의 효율성이 떨어질 것이다. 기업과 정부에서 각종 비즈니스 모델을 만드는 것의 시작은 데이터를 수집하는 것인 만큼 크롤링은 4차 산업혁명 시대의 주요한 대응 전략이다. 우리는 웹 크롤링을 통해 HTML기반의 웹 사이트, 이미지, 문서 등 다양한 종류의 정보를 가져올 수 있다. 자동으로 대량의 정보를 수집할 수 있는 크롤링의 특징을 활용하여 챗봇 구현이나 데이터 분석 연구 등을 할 수 있다 더불어 우리가 자주 이용하는 구글, 네이버와 같은 검색 서비스도 수많은 웹사이트를 크롤링함으로써 제공되는 것이다.


이처럼 크롤링은 다양한 방법으로 활용이 가능하지만, 이를 이용하여 정보를 무단 복제 함으로써 지식 재산권을 침해하는 사례도 발생한다. 그러나 급변하는 데이터 산업 환경 변화를 고려할 때, 데이터를 지나치게 보호하는 것은 경계해야 한다. 웹 크롤링 기술을 사용한 단순한 공개 데이터는 데이터의 종류와 유형, 가공과 정제 여부에 따라서 수집 및 활용에 대한 허용 범위를 유연하게 적용할 필요가 있고, 사용자 또한 악용하는 것에 대해 경각심을 가져야 한다.

사업자등록번호 : 492-04-01429ㅣ업태 : 정보통신업ㅣ데이터베이스 및 온라인 정보 제공업 ㅣseo_daeho@naver.com ㅣ 대표 :서대호

서울특별시 구로구 디지털로34길 55, 715호(구로동, 코오롱싸이언스밸리2차)  문의 010-8598-7735 / 010-7130-2441