웹 크롤링

jupyter lab을 사용하였습니다.

아래명령어로 requests와 beautifulsoup4,lxml을 설치해줍니다.

pip install requests
pip install beautifulsoup4
pip install lxml

설치한것을 파이썬 파일에 import해줍니다.

import requests
from bs4 import BeautifulSoup

url = "url주소"
res = requests.get(url)
res.raise_for_status()

print("응답코드확인 :",res.status_code)

soup = BeautifulSoup(res.text, "lxml")
item=soup.select('원하는 태그') //하나만 원하면 select_one함수 사용
for i in item:
    print(i.text)//텍스트 요소만 추출

위의 형식을 사용하여

제 블로그의 게시물을 크롤링 해보겠습니다!

import requests
from bs4 import BeautifulSoup

url = "https://nyeongha.tistory.com/204"
res = requests.get(url)
res.raise_for_status()

print("응답코드 :",res.status_code)

soup = BeautifulSoup(res.text, "lxml")

item=soup.select('.vim > code')
for i in item:
    print(i.text)

아래의 글을 크롤링으로 추출할수있습니다.

저작자표시 비영리 변경금지 (새창열림)

'웹개발' 카테고리의 다른 글

quenswer(프로젝트)-QuestionList (0)	2024.01.08
quenswer(프로젝트)-Junit Test(Answer) (0)	2023.12.29
quenswer(프로젝트)-Junit Test(Question) (0)	2023.12.29
quenswer(프로젝트)-entity설계 (4)	2023.12.29
자바 서블릿 (1)	2023.12.26

nyeongha's logfile

웹 크롤링

'웹개발' 카테고리의 다른 글

티스토리툴바

웹 크롤링

'웹개발' 카테고리의 다른 글

관련글

티스토리툴바