Coach space
/
데이터 수집
Search
Share
데이터 수집
scarping
목차
Web
1.
[Client] 브라우저 실행
2.
[Client] URL 주소 입력
3.
[Client] 클라이언트가 서버에게 컨텐츠 요청(request)
기본 지식
데이터 수집 개요
목차
BeautifulSoup
•
https://www.crummy.com/software/BeautifulSoup/
•
파싱을 도와주는 강력한 python 라이브러리
•
쉽고 간결하며, 정규식을 작성할 필요 없이 tag, id, class 등의 이름으로 쉽게 파싱 가능
BeautifulSoup
목차
[실습] 한국 거래소 파일 다운로드 받기
1.
브라우저 > 검사 > 네트워크 탭 실행
request > POST 방식
목차
requests
•
Python으로 HTTP request를 서버로 보내기 위한 패키지
•
속도가 빠름
•
Javascript 실행은 불가능함
requests > GET 방식
목차
selenium
•
동적으로 브라우저 제어
•
직접 브라우저를 실행하여 python code로 mouse click, keyboard input 등의 event를 발생시킴
•
실제 브라우저로 실행한 것과 동일한 값을 얻을 수 있음
•
속도가 느림
•
pip install selenium
selenium
목차
공공데이터
•
크롤링 사이트:
https://www.data.go.kr/
•
참고 소스코드:
주피터노트북
사전준비
•
공공데이터포털 회원가입
OpenAPI
목차
미니 프로젝트
1) 파일 업로드 주소
2) 업데이트 파일
•
파이썬 소스코드(.py or ipynb)
: 예: 네이버주가분석_홍길동.ipynb
미니 프로젝트