웹 크롤링을 통하여 방탈출 웹사이트에 있는 방탈출 정보를 가져오기로 했기 때문에 크롤링에 대해 공부하고 local test까지 진행해보았습니다.

웹 크롤링의 기본 개념

크롤링은 웹 페이지에서 데이터를 자동으로 추출하는 프로세스입니다. 주로 HTML 문서의 텍스트, 이미지, 링크 등의 데이터를 가져와 가공하거나 저장하는 데 사용됩니다.

크롤링 단계

  1. 요청(Request): 크롤러가 HTTP 요청을 보내 웹 페이지의 소스 코드를 가져옵니다.
  2. 응답(Response): 서버로부터 HTML 문서를 포함한 응답을 받습니다.
  3. 파싱(Parsing): HTML 문서를 분석하여 필요한 데이터를 추출합니다.
  4. 저장(Storage): 추출된 데이터를 데이터베이스나 파일로 저장합니다.

데이터를 효율적으로 수집하는 동시에, 서버의 부하를 최소화하며 법적 규정을 어기면 안되는 것이 중요

Scrapy와 Selenium을 사용한 웹 크롤링

Scrapy는 고성능의 Python 기반 웹 크롤링 프레임워크로, 효율적인 스크래핑 및 데이터 파이프라인 관리가 가능합니다.

Selenium은 웹 브라우저를 자동으로 제어할 수 있는 도구로, JavaScript로 동적으로 렌더링된 콘텐츠를 처리하는 데 매우 유용합니다. Selenium은 실제 브라우저를 실행하여 사용자가 보는 화면과 동일한 데이터를 가져옵니다.

Scrapy와 Selenium을 함께 사용하는 이유

Scrapy는 빠르고 효율적으로 정적인 HTML 데이터를 처리합니다

Selenium은 자바스크립트가 필요한 웹 페이지를 렌더링하여 데이터를 가져올 수 있습니다.