웹개발
웹 크롤링
nyeongha
2023. 12. 22. 15:22
jupyter lab을 사용하였습니다.
아래명령어로 requests와 beautifulsoup4,lxml을 설치해줍니다.
pip install requests
pip install beautifulsoup4
pip install lxml
설치한것을 파이썬 파일에 import해줍니다.
import requests
from bs4 import BeautifulSoup
url = "url주소"
res = requests.get(url)
res.raise_for_status()
print("응답코드확인 :",res.status_code)
soup = BeautifulSoup(res.text, "lxml")
item=soup.select('원하는 태그') //하나만 원하면 select_one함수 사용
for i in item:
print(i.text)//텍스트 요소만 추출
위의 형식을 사용하여
제 블로그의 게시물을 크롤링 해보겠습니다!
import requests
from bs4 import BeautifulSoup
url = "https://nyeongha.tistory.com/204"
res = requests.get(url)
res.raise_for_status()
print("응답코드 :",res.status_code)
soup = BeautifulSoup(res.text, "lxml")
item=soup.select('.vim > code')
for i in item:
print(i.text)
아래의 글을 크롤링으로 추출할수있습니다.