opensource 2

OPEN Source를 이용한 검색엔진 개발(2)

지난 포스팅에 OPEN Source를 이용한 검색엔진에 대한 기본적인 내용을 공유 하였고 이번 회차에서는 검색엔진의 수집, 색인, 검색에 대한 내용에 대해 상세히 공유 하도록 하겠습니다. 수집 – 검색엔진의 목적에 맞게 사용자가 필요로 하는 정보를 준비하는 과정 - 다양한 형태로 존재하는 비정형 데이터(정보)를 필요에 따라 추출 - 가장 많이 사용되는 웹 페이지 크롤링과 DBMS에 저장된 데이터를 수집하는 과정을 통해 예를 들어 설명 1. 크롤링 웹 페이지를 그대로 가져와서 데이터를 추출해 내는 행위. 크롤링을 하는 소프트웨어를 크롤러라고 부름 - 검색 엔진에서는 웹 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용. - 일일이 해당 사이트의 정보를 검색하는 것이 아닌 끊임없이 새로운 웹 페이지를..

유용한 정보 2019.03.22

OPEN Source를 이용한 검색엔진 개발(1)

OPEN Source를 이용하여 자체적으로 검색엔진을 개발한 내용입니다. 검색엔진 제작을 위한 개요 부분과 수집, 색인, 검색에 대한 내용으로 2번에 걸쳐 내용을 공유하도록 하겠습니다. 검색엔진이란? 사용자가 필요로 하는 정보를 수집하여 내용을 분석한 뒤 찾기 쉬운 형태로 조직하여(색인), 정보에 대한 요구가 발생할 때 해당 정보를 빠르게 찾아 제공(검색)하는 시스템이나 프로그램 검색엔진의 구조 1. 수집: 검색엔진의 목적에 맞게 사용자가 필요로 하는 정보를 준비하는 과정 - 대부분의 오픈소스 검색엔진 솔루션에서는 DB, File(doc, xls, pdf 등), Log에 존재하는 데이터를 수집하는 기능을 제공 - Web page의 경우는 크롤링을 이용 2. 색인: 수집된 내용을 분석하여 특정 데이터를 빠..

유용한 정보 2019.03.12