웹개발

웹 크롤링

nyeongha 2023. 12. 22. 15:22

jupyter lab을 사용하였습니다.

 

아래명령어로 requests와 beautifulsoup4,lxml을 설치해줍니다.

pip install requests
pip install beautifulsoup4
pip install lxml

설치한것을 파이썬 파일에 import해줍니다.

import requests
from bs4 import BeautifulSoup

url = "url주소"
res = requests.get(url)
res.raise_for_status()

print("응답코드확인 :",res.status_code)

soup = BeautifulSoup(res.text, "lxml")
item=soup.select('원하는 태그') //하나만 원하면 select_one함수 사용
for i in item:
    print(i.text)//텍스트 요소만 추출

 

위의 형식을 사용하여

제 블로그의 게시물을 크롤링 해보겠습니다!

import requests
from bs4 import BeautifulSoup

url = "https://nyeongha.tistory.com/204"
res = requests.get(url)
res.raise_for_status()

print("응답코드 :",res.status_code)

soup = BeautifulSoup(res.text, "lxml")

item=soup.select('.vim > code')
for i in item:
    print(i.text)

아래의 글을 크롤링으로 추출할수있습니다.