'nutch크롤링' 태그의 글 목록

OPEN Source를 이용한 검색엔진 개발(2)

지난 포스팅에 OPEN Source를 이용한 검색엔진에 대한 기본적인 내용을 공유 하였고 이번 회차에서는 검색엔진의 수집, 색인, 검색에 대한 내용에 대해 상세히 공유 하도록 하겠습니다. 수집 – 검색엔진의 목적에 맞게 사용자가 필요로 하는 정보를 준비하는 과정 - 다양한 형태로 존재하는 비정형 데이터(정보)를 필요에 따라 추출 - 가장 많이 사용되는 웹 페이지 크롤링과 DBMS에 저장된 데이터를 수집하는 과정을 통해 예를 들어 설명 1. 크롤링 웹 페이지를 그대로 가져와서 데이터를 추출해 내는 행위. 크롤링을 하는 소프트웨어를 크롤러라고 부름 - 검색 엔진에서는 웹 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용. - 일일이 해당 사이트의 정보를 검색하는 것이 아닌 끊임없이 새로운 웹 페이지를..

유용한 정보 2019.03.22

nutch크롤링 1

티스토리툴바