본문 바로가기

Javascript/Node.js

Scraping & Crawling

1. Scrapping

 

(1) 웹 스크래핑은 웹사이트에서 데이터를 추출하는 것으로 웹 스크래핑 소프트웨어를 통해 수행

(2) 웹 스크래핑 소프트웨어는 하이퍼텍스트 전송 프로토콜이나 웹 브라우저를 이용해 웹페이지에 직접 접근함

(3) 스크래핑은 사용자가 수동으로 수행할 수 있지만 일반적으로 봇이나 웹 크롤러를 사용하여 자동화된 형태로 실시

(4) 특정 데이터를 웹에서 수집하고 중앙 로컬 데이터베이스 또는 스프레드시트로 나중에 복사하는 복사 형식

 

 

2. Crawling

 

(1) 조직적 , 자동화된 방법으로 인터넷을 탐색하는 컴퓨터 프로그램을 이용하여 스크래핑 작업을 하는 것

(2) 웹 크롤러는 크롤링을 하는 프로그램으로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용됨

(3) 검색 엔진은 생성된 페이지를 보다 빠른 검색을 위해 인덱싱

(4) 크롤러는 링크 체크나 HTML 코드 검증 같은 웹 사이트의 유지보수 작업, 특정 형태의 정보 수집을 하는데 사용됨

(5) 웹 크롤러는 대개 시드라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신하고

      갱신된 URL 리스트는 재귀적으로 다시 방문

 

 

 

 

 

참고

https://en.wikipedia.org/wiki/Web_scraping

https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC

 

웹 크롤러 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 검색 엔진에 대해서는 웹크롤러 문서를 참고하십시오. 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹

ko.wikipedia.org

 

Web scraping - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Data scraping used for extracting data from websites Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites.[1] Web scraping softw

en.wikipedia.org

 

'Javascript > Node.js' 카테고리의 다른 글

package.json  (0) 2022.11.16
Docker  (0) 2022.11.16
Javacsript & Node.js  (0) 2022.11.15
MVC  (0) 2022.11.14
SQL vs NoSQL  (0) 2022.11.09