What is Web Scraping?
:Website를 통채로 자신의 컴퓨터에 다운로드하는 툴
* 웹 크롤링이란?
인터넷을 이용하다가 '아, 이 홈페이지 참 잘 만들었다. 어떻게 구성을 했는지 알아보고 싶다!' 하는 생각이 든다면, 웹 크롤링을 이용해서 소기의 목적을 달성할 수 있다. 웹 크롤링이란 내 컴퓨터가 인터넷이 되지 않아도 웹 사이트를 다운로드 받아서 구조를 살펴볼 수 있다. 아래의 HTTrack Website Copier를 보면, 뒷부분에 free software offline browser(GNU GPL)라고 적혀있다.
우리가 코드를 짜거나 분석할 때 IDE(통합 개발 환경)을 사용하는 것처럼, 웹 크롤링을 할 때에도 쉽게 환경을 제공해 주는 툴들이 존재한다. 우리는 그 중에서 HTTrack을 이용하려고 한다. HTTrack은 한국어 지원을 하지 않기 때문에 간단하게 사용법까지 알아보도록 하자.
▷ HTTrack Website Copier - Free Software Offline Browser (GNU GPL)
홈페이지에 들어가면 상단 카테고리에 있는 Download를 클릭한다.
그러면 위와 같은 창이 뜨는데, 본인은 64bit를 이용하고 있으므로
We rcommend: 라고 적혀있는 항목을 클릭한다.
Next 버튼을 클릭한다.
I accept the agreement
나는 약관에 동의합니다! 하고
Next 버튼을 클릭한다.
경로 설정하는 란인데,
특별한 경우가 아니라면 기본값 그대로 둔 채
Next 버튼을 클릭한다.
시작 메뉴 설정 화면이다.
이것 역시 특별한 경우가 아니라면
그냥 Next 버튼을 클릭한다.
필자는 Default 값으로 되어 있던
Create a desktop icon 체크박스를 해제한 채로
Next 버튼을 클릭하였다.
이제 Install 버튼만 살포시 눌러준다.
설치중 뜨뜨뜨든~!
history.txt 파일은 필요하지 않으므로 체크 해제한 후
바로 테스트하기 위해
Launch WinHTTrack Website Copier 체크 후 Finish 클릭한다.
우리는 세계 공용어 English로 OK를 누를 것이다.
New project name: 내가 가져올 프로젝트명
Base path: 가져올 자료의 경로
설정 후 다음을 눌러준다.
Scan Rules 에서 체크 다 해준다.
Add URL을 눌러서 내가 크롤링 하고 싶은 URL 주소를 입력 후
OK 누른다
기본 설정 그대로 마침 버튼을 누른다.
그럼 크롤링이 진행중인걸 알 수 있다.
출처 : 코락(http://corock.tistory.com/187)
'Programming > [JSP]' 카테고리의 다른 글
[JSTL] SQL 태그 (0) | 2018.05.05 |
---|---|
[JSTL] for tokens를 forEach로 바꾸기 (0) | 2018.05.05 |
[JSP] 톰캣으로 프로젝트 실행시 시작페이지 설정 (0) | 2018.05.03 |
[JSP] 썸네일 만들기 (0) | 2018.05.01 |
[JSP] 파일 업로드 기초 (0) | 2018.05.01 |