정보설명서

연구자에게 정보는 곧 힘입니다. 하지만 정보가 너무 방대하게 퍼져 있다는 것이 문제입니다. 수십 개의 사이트를 북마크해두고 매일 수동으로 확인하는 것은 에너지를 낭비하는 일이죠. 파이썬의 Requests 와 BeautifulSoup 라이브러리를 활용하면, 내가 원하는 사이트의 특정 정보만 쏙쏙 뽑아와서 엑셀이나 데이터프레임으로 정리할 수 있습니다. 1. 크롤링과 스크레이핑, 무엇이 다른가요? 보통 혼용해서 쓰지만, 엄밀히 말하면 조금 다릅니다. 크롤링(Crawling): 거미줄처럼 연결된 웹페이지를 돌아다니며 정보를 탐색하는 행위입니다. 스크레이핑(Scraping): 특정 웹페이지에서 내가 필요한 데이터(제목, 본문, 날짜 등)만 추출하는 행위입니다. 우리는 보통 특정 사이트에서 연구 데이터를 가져오는 스크레이핑 기술을 먼저 배우게 됩니다. 2. 웹 데이터 수집의 두 기둥: Requests 와 BeautifulSoup 웹페이지는 기본적으로 HTML이라는 언어로 되어 있습니다. 파이썬이 이 정보를 가져오기 위해서는 두 단계가 필요합니다. Requests (주문하기): 파이썬이 웹 서버에 "이 페이지 정보 좀 줄래?"라고 요청을 보내는 도구입니다. BeautifulSoup (해석하기): 서버로부터 받은 복잡한 HTML 코드 뭉치에서 내가 원하는 텍스트나 링크만 골라내는 '핀셋' 역할을 합니다. 설치 방법: 터미널에서 pip install requests beautifulsoup4 를 입력하세요. 3. 실전: 5분 만에 뉴스 제목 긁어오기 주피터 노트북에서 아래 코드를 실행해 보세요. 웹 데이터 수집의 원리를 단번에 이해할 수 있습니다. Python import requests from bs4 import BeautifulSoup # 1. 정보를 가져올 웹사이트 주소 설정 url = 'https://news.naver.com' # 예시 사이트 # 2. 서버에 페이지 정보 요청 respon...

이 블로그 검색

정보설명서

글

[연구 자동화 #9] 웹 데이터 수집의 기초: 파이썬으로 연구용 정보를 자동으로 크롤링하기