본문 바로가기

Programming/[JSP]

[WEB] 크롤링(HTTrack)

 

 

 

 

What is Web Scraping?

 :Website를 통채로 자신의 컴퓨터에 다운로드하는 툴


* 웹 크롤링이란?

 

 인터넷을 이용하다가 '아, 이 홈페이지 참 잘 만들었다. 어떻게 구성을 했는지 알아보고 싶다!' 하는 생각이 든다면, 웹 크롤링을 이용해서 소기의 목적을 달성할 수 있다. 웹 크롤링이란 내 컴퓨터가 인터넷이 되지 않아도 웹 사이트를 다운로드 받아서 구조를 살펴볼 수 있다. 아래의 HTTrack Website Copier를 보면, 뒷부분에 free software offline browser(GNU GPL)라고 적혀있다.

 

 우리가 코드를 짜거나 분석할 때 IDE(통합 개발 환경)을 사용하는 것처럼, 웹 크롤링을 할 때에도 쉽게 환경을 제공해 주는 툴들이 존재한다. 우리는 그 중에서 HTTrack을 이용하려고 한다. HTTrack은 한국어 지원을 하지 않기 때문에 간단하게 사용법까지 알아보도록 하자.

 

 

 

 

 ▷ HTTrack Website Copier - Free Software Offline Browser (GNU GPL)

 

 

 

 

 

 

 

 

 

홈페이지에 들어가면 상단 카테고리에 있는 Download를 클릭한다.

그러면 위와 같은 창이 뜨는데, 본인은 64bit를 이용하고 있으므로

We rcommend: 라고 적혀있는 항목을 클릭한다.

 

 

 

 

Next 버튼을 클릭한다.

 

 

 

 

I accept the agreement

나는 약관에 동의합니다! 하고

Next 버튼을 클릭한다.

 

 

 

 

경로 설정하는 란인데,

특별한 경우가 아니라면 기본값 그대로 둔 채

Next 버튼을 클릭한다.

 

 

 

 

시작 메뉴 설정 화면이다.

이것 역시 특별한 경우가 아니라면

그냥 Next 버튼을 클릭한다.

 

 

 

 

 

필자는 Default 값으로 되어 있던

Create a desktop icon 체크박스를 해제한 채로

Next 버튼을 클릭하였다.

 

 

 

 

이제 Install 버튼만 살포시 눌러준다.

 

 

 

 

설치중 뜨뜨뜨든~!

 

 

 

 

history.txt 파일은 필요하지 않으므로 체크 해제한 후

바로 테스트하기 위해

Launch WinHTTrack Website Copier 체크 후 Finish 클릭한다.

 

 

 

 

우리는 세계 공용어 English로 OK를 누를 것이다.

 

 

 

 

 

 

New project name: 내가 가져올 프로젝트명

 Base path: 가져올 자료의 경로

 

설정 후 다음을 눌러준다.

 

 

 

 

Scan Rules 에서 체크 다 해준다.

 

 

 

 

 

 

Add URL을 눌러서 내가 크롤링 하고 싶은 URL 주소를 입력 후

OK 누른다

 

 

 

기본 설정 그대로 마침 버튼을 누른다.

 

 

 

 

 

그럼 크롤링이 진행중인걸 알 수 있다.

출처 : 코락(http://corock.tistory.com/187)

'Programming > [JSP]' 카테고리의 다른 글

[JSTL] SQL 태그  (0) 2018.05.05
[JSTL] for tokens를 forEach로 바꾸기  (0) 2018.05.05
[JSP] 톰캣으로 프로젝트 실행시 시작페이지 설정  (0) 2018.05.03
[JSP] 썸네일 만들기  (0) 2018.05.01
[JSP] 파일 업로드 기초  (0) 2018.05.01