본문 바로가기
웹개발

웹 크롤링

by nyeongha 2023. 12. 22.

jupyter lab을 사용하였습니다.

 

아래명령어로 requests와 beautifulsoup4,lxml을 설치해줍니다.

pip install requests
pip install beautifulsoup4
pip install lxml

설치한것을 파이썬 파일에 import해줍니다.

import requests
from bs4 import BeautifulSoup

url = "url주소"
res = requests.get(url)
res.raise_for_status()

print("응답코드확인 :",res.status_code)

soup = BeautifulSoup(res.text, "lxml")
item=soup.select('원하는 태그') //하나만 원하면 select_one함수 사용
for i in item:
    print(i.text)//텍스트 요소만 추출

 

위의 형식을 사용하여

제 블로그의 게시물을 크롤링 해보겠습니다!

import requests
from bs4 import BeautifulSoup

url = "https://nyeongha.tistory.com/204"
res = requests.get(url)
res.raise_for_status()

print("응답코드 :",res.status_code)

soup = BeautifulSoup(res.text, "lxml")

item=soup.select('.vim > code')
for i in item:
    print(i.text)

아래의 글을 크롤링으로 추출할수있습니다.

'웹개발' 카테고리의 다른 글

quenswer(프로젝트)-QuestionList  (0) 2024.01.08
quenswer(프로젝트)-Junit Test(Answer)  (0) 2023.12.29
quenswer(프로젝트)-Junit Test(Question)  (0) 2023.12.29
quenswer(프로젝트)-entity설계  (4) 2023.12.29
자바 서블릿  (1) 2023.12.26