Web
1.
[Client] ๋ธ๋ผ์ฐ์ ์คํ
2.
[Client] URL ์ฃผ์ ์
๋ ฅ
3.
[Client] ํด๋ผ์ด์ธํธ๊ฐ ์๋ฒ์๊ฒ ์ปจํ
์ธ ์์ฒญ(request)
4.
[Server] ์๋ฒ๋ ํด๋ผ์ด์ธํธ์๊ฒ ์์ฒญ๋ฐ์ ์ปจํ
์ธ ๋ฅผ ์๋ต(response)
5.
[Client] ๋ธ๋ผ์ฐ์ ๋ ์๋ฒ๊ฐ ์ ๋ฌํ ์๋ต์ ํด์ํ์ฌ ํ๋ฉด์ ํ์
HTML
โข
์์์ค, ํค๋(Header), ๋ณธ๋ฌธ(Body)์ผ๋ก ์ด๋ฃจ์ด์ง
โฆ
ํค๋๋ ์ ์ฑ
์ ์ธ ๋ถ๋ถ, ๋ฐ๋๋ ํ๋ฉด์ ํ์ํ๊ธฐ ์ํ ๋ ์ด์์์ ์ค๋ช
ํ๋ ๋ถ๋ถ
HTML ์ฃผ์ ํ๊ทธ
ํ๊ทธ | ์ค๋ช
|
H1~H6 | ์ ๋ชฉ ํ๊ทธ, h1 ~ h6 ์์๋ก ํฌ๊ธฐ๊ฐ ์์์ง. |
p | ๋ฌธ๋จ(Paragraph) ํ๊ทธ |
ul | ์์๊ฐ ์๋ ๋ชฉ๋ก |
ol | ์์๊ฐ ์๋ ๋ชฉ๋ก |
li | ul ๋๋ ol ํ์์ ๊ฐ ํญ๋ชฉ์ ๋ฃ๋ ํ๊ทธ |
a | ํ์ดํผ๋งํฌ๋ฅผ ์์ฑํ๋ ํ๊ทธ |
div | ๋ ์ด์์์ ๋๋๋๋ฐ(division) ์ฌ์ฉ(๋ฐ์ค ํํ๋ก ๋ฌถ์) |
span | ์ธ๋ผ์ธ ์์(inline-element)๋ค์ ํ๋๋ก ๋ฌถ์ ๋ ์ฌ์ฉ(๋ผ์ธ ๋ณ๋ก ๋ฌถ์) |
URL(Uniform Resource Loader)
โข
์ธํฐ๋ท์ ์กด์ฌํ๋ ๋ฆฌ์์ค(ํ์ผ ๋ฑ)์ ์์น๋ฅผ ๋ํ๋ด๋ ์๋ณ์
โข
์ฌ์ฉ์๊ฐ ๋ธ๋ผ์ฐ์ ์ฃผ์์ฐฝ์ ์ง์ ์ฃผ์๋ฅผ ์
๋ ฅํ๊ธฐ๋ ํ๊ณ , ๋ฒํผ ํด๋ฆญ ๋ฑ์ ์ด๋ฒคํธ๋ฅผ ํตํด ์๋์ผ๋ก URL์ด ์๋ฒ๋ก ์ ๋ฌ๋๊ธฐ๋ ํจ
โข
HTML์์ URL์ ๋ํ๋ด๋ ๋ฐฉ๋ฒ
โฆ
<a href =โURL์ฃผ์โ ></a>
โข
ํฌ๋กค๋ง์ ํ๊ธฐ ์ํด์๋?
โฆ
์น ํ์ด์ง์ ์๋ a ํ๊ทธ์ href ์์ฑ์์ ๋ค๋ฅธ ํ์ด์ง์ URL์ ์ถ์ถ
โฆ
์๋ URL์ ์ ๋ URL๋ก ๋ณํํ๋ ๊ณผ์ ์ด ํ์
โช
์๋ URL : ์ ๋ URL์ ๊ธฐ๋ฐ์ผ๋ก ์๋์ ์ธ ๊ฒฝ๋ก๋ฅผ ์ก๋ URL(์. /articles/)
โช
์ ๋ URL : http:// ๋ฑ์ ์คํค๋ง๋ก ์์ํ๋ URL(์: http://example.com/articles/)
ํฌ๋กค๋ง(Crawling)
โข
์น ํ์ด์ง์ ํ์ดํผ๋งํฌ๋ฅผ ์ํํ๋ฉด์ ์น ํ์ด์ง๋ฅผ ๋ค์ด๋ก๋ํ๋ ์์
ํฌ๋กค๋ฌ๋ ์น ํ์ด์ง์ ์กด์ฌํ๋ ํ์ดํผ๋งํฌ๋ฅผ ๋ฐ๋ผ ๋์๋ค๋๋ฏ๋ก, URL์ ๋ํ ์ดํด๊ฐ ํ์
โข
์ธํฐ๋ท ์์ ์ ๋ณด๋ฅผ ํจ์จ์ ์ผ๋ก ์์งํ์ฌ ์ ์ฅ
โข
๋ฐฉ๋ฌธํ URL ๋ฆฌ์คํธ๋ฅผ ํตํด ์น ํ์ด์ง๋ฅผ ๋ด๋ ค ๋ฐ์ ํด๋น ๋งํฌ์ ์กด์ฌ์ HTML ์ฝ๋์ ์ ํจ์ฑ์ ๊ฒ์ฌํ์ฌ, ์ ํจ์ฑ์ด ํต๊ณผ๋๋ฉด ํ
์คํธ ์ ๋ณด์ ๋ฉํ์ ๋ณด๋ฅผ ์ ์ฅ
ํฌ๋กค๋ง ์ฌ๋ก
โข
๊ตฌ๊ธ: ์๋ง์ ์น์ฌ์ดํธ๋ฅผ ํฌ๋กค๋งํ์ฌ ๊ฒ์ ์๋น์ค ์ ๊ณต
โข
์ฟ ์ฐจ: ๊ฐ์ข
์์
์ปค๋จธ์ค ์ฌ์ดํธ๋ฅผ ํฌ๋กค๋งํ์ฌ ์ต์ ๊ฐ ์ ๋ณด ์ ๊ณต
ํฌ๋กค๋ง ์ฃผ์์ฌํญ
โข
ํฌ๋กค๋ง ๋์ ์น ์ฌ์ดํธ์ ์ฑ๋ฅ ์ ํ
โฆ
๋์ ์ ์ ์ ๊ณ ๋ ค : ํ ์น์ฌ์ดํธ๊ฐ ๋์์ ์ฒ๋ฆฌํ ์ ์๋ ์ ์ ์๋ ์ ํ
โฆ
์ ์ ์๊ฐ ๊ฐ๊ฒฉ : ์ฐ์์ ์ผ๋ก ์น ํ์ด์ง๋ฅผ ์ถ์ถํ๋ฉด ์๋ฒ์ ๊ณผ๋ถํ๊ฐ ๊ฑธ๋ฆผ
โช
๋จ์ผ ์ ์์ผ๋ก 1์ด ์ด์์ ์๊ฐ ๊ฐ๊ฒฉ์ ๋๊ณ ์น์ฌ์ดํธ๋ฅผ ํฌ๋กค๋ง ํ๋ ๊ฒ์ด ๋ฌด๋ํจ
โข
์ ์๊ถ ์นจํด
โฆ
์ ์๊ถ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ฌด๋จ์ผ๋ก ์์งํด์ ์ฌ์ฉ ์, ๋ฌธ์ ๋ฐ์
โข
์ค๋ฅ ์ฒ๋ฆฌ
โฆ
HTTP ํต์ ์ค๋ฅ ์, ์ผ์์ ์ธ ์ค๋ฅ์ธ์ง ์๋์ง๋ฅผ ํ๋จํ์ฌ ์ฌ์๋ ์ฌ๋ถ ๊ฒฐ์
โข
์ฐ๋ฝ์ฒ ๋ช
์
โฆ
ํฌ๋กค๋ฌ์ User-Agent ํค๋์ ์ฐ๋ฝ์ฒ URL ๋๋ ๋ฉ์ผ ์ฃผ์๋ฅผ ์์ฑ
โฆ
robots.txt
์คํฌ๋ํ(Scraping)
โข
๋ค์ด๋ก๋ํ ์น ํ์ด์ง์์ ํ์ํ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ์์
โข
Parser์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ํ ์ดํด๊ฐ ํ์
ํ์ฑ(Parsing)
โข
์ผ๋ จ์ ๋ฌธ์์ด์ ์๋ฏธ์๋ ํ ํฐ์ผ๋ก ๋ถํดํ๊ณ ์ด๋ค๋ก ์ด๋ฃจ์ด์ง ํ์ค ํธ๋ฆฌ(parse tree)๋ฅผ ๋ง๋๋ ๊ณผ์
parse tree