라벨이 웹데이터수집인 게시물 표시

복사 붙여넣기 지옥 탈출! 파이썬 웹 크롤링으로 인터넷 데이터 엑셀에 자동 수집하기

  매일 아침 출근하자마자 하는 일이 혹시 인터넷 창을 띄우는 것인가요? 환율 정보, 경쟁사 쇼핑몰의 상품 가격, 오늘의 주요 뉴스 제목 등을 마우스로 쭉 드래그해서 복사(Ctrl+C)한 뒤, 엑셀을 열고 붙여넣기(Ctrl+V)를 반복하고 계시다면 오늘 이 글이 여러분의 아침 시간을 완벽하게 바꿔놓을 것입니다. 사람이 눈으로 보고 마우스로 긁어오는 작업을 컴퓨터가 대신 눈 깜짝할 사이에 해치우는 기술, 바로 '웹 크롤링(Web Crawling)' 입니다. 파이썬과 판다스(Pandas)를 결합하면 인터넷상의 데이터를 1초 만에 긁어와서 깔끔한 엑셀 표로 저장할 수 있습니다. 오늘은 파이썬 크롤링의 국민 도구인 BeautifulSoup 을 활용해 웹 데이터를 수집하는 기초를 다져보겠습니다. 1. 웹 크롤링의 두 가지 필수 무기 인터넷의 데이터를 가져오려면 파이썬에게 두 가지 도구를 쥐여주어야 합니다. requests (요청하기): 인터넷 주소창에 URL을 입력하고 엔터를 치는 역할을 합니다. 웹페이지의 전체 소스코드(HTML)를 통째로 다운받아 옵니다. BeautifulSoup (요리하기): requests가 가져온 복잡한 외계어 같은 소스코드 속에서, 우리가 원하는 진짜 데이터(텍스트)만 예쁘게 발라내는 정교한 칼잡이 역할을 합니다. 코드를 작성하기 전, 주피터 노트북이나 터미널에서 pip install requests beautifulsoup4 를 입력해 두 도구를 설치해 줍니다. (판다스는 이미 설치되어 있다고 가정합니다.) 2. F12 개발자 도구로 데이터의 '이름표' 찾기 컴퓨터는 사람처럼 "저기 굵은 글씨로 적힌 뉴스 제목 좀 가져와"라고 말하면 알아듣지 못합니다. 웹사이트의 모든 글씨에는 고유한 'HTML 태그와 클래스 이름' 이 붙어있으며, 우리는 이 이름표를 파이썬에게 알려주어야 합니다. 크롬(Chrome) 브라우저에서 원하는 데이터가 있는...