간단 지식/Python

03. 웹 크롤링 - 주피터 노트북, 아나콘다, 파이썬

납작한돌맹이 2021. 4. 22. 23:45
반응형

미뤄두고 미뤄뒀던 웹 크롤링에 도전을 하려고 한다. 일단 가장 많이 쓴다는 라이브러리인 BeautifulSoup을 설치해보도록 하자.

 

관리자모드로 cmd창을 연 후 아래와 같이 bs4를 설치한다

import 결과 후 modulenotfound에러가 나지 않으면 성공적으로 설치가 완료된 것이다.

앞으로의 작업을 python IDLE로 하기에는 내 컴퓨터는 아나콘다가 깔려있기도 하고 라이브러리 경로를 자동으로 찾아주지 못하는 문제(이건 왜그런지는 모르겠다)가 있어서 아나콘다 가상환경에서 주피터 노트북으로 작업을 하려 한다.

 

import requests
from bs4 import BeautifulSoup

주피터 노트북에서 새 파이썬 파일을 생성하고 위 라이브러리들을 import한다. 웹 크롤링에 자주 쓰는 라이브러리이다. run 후 에러가 안나면 설치환경에 문제가 없다는 의미이다!

fifa_rank = "https://www.fifa.com/fifa-world-ranking/ranking-table/men/"
fifa_rank_html = requests.get(fifa_rank)
fifa_rank_html_list =  BeautifulSoup(fifa_rank_html.content ,"html.parser" ,from_encoding='utf=8')

fifa_rank_list = fifa_rank_html_list.select('#rank-table >tbody>tr')

for obj in fifa_rank_list :
    print(obj.find('td', {'class': 'fi-table__rank'}).text,'위 : ', obj.find('span', {'class': 'fi-t__nText'}).text )

 

결과는 아래와 같다.

 

 

(이 글이 도움이 됐다면 광고 한번씩만 클릭 해주시면 감사드립니다, 더 좋은 정보글 작성하도록 노력하겠습니다 :) )

반응형

'간단 지식 > Python' 카테고리의 다른 글

06. 조건문과 반복문  (0) 2021.07.07
05. 문자열 format  (0) 2021.07.05
04. 문자열 함수  (0) 2021.07.05
02. 아나콘다 에러  (0) 2021.04.22
01. 파이썬 자료형  (2) 2021.03.06