[연구 자동화 #3] Pandas 기초: 수만 행의 실험 데이터를 단 3줄의 코드로 불러오기
연구실에서 가장 흔하게 접하는 데이터 형식은 아마 .csv 혹은 .xlsx 일 것입니다. 보통은 이 파일을 확인하기 위해 엑셀을 먼저 실행하죠. 하지만 데이터가 10만 행을 넘어가면 엑셀은 로딩 바를 띄우며 우리의 인내심을 테스트합니다. 파이썬의 핵심 라이브러리인 Pandas(판다스)를 사용하면 이런 기다림은 과거의 일이 됩니다. 판다스는 파이썬계의 '엑셀'이라고 불리지만, 그 성능과 확장성은 비교할 수 없을 정도로 강력합니다. 오늘은 복잡한 문법 다 치워버리고, 딱 3줄의 코드 로 데이터를 장악하는 법을 알아보겠습니다. 1. 판다스(Pandas)라는 강력한 엔진 이해하기 판다스는 데이터를 'DataFrame'이라는 형식으로 다룹니다. 쉽게 말해 '파이썬 안에 떠 있는 엑셀 시트'라고 생각하면 됩니다. 엑셀은 눈에 보이는 셀 하나하나를 수정하는 방식이라 무겁지만, 판다스는 데이터를 메모리에 올린 뒤 행과 열이라는 구조를 통해 연산하기 때문에 수만 줄의 데이터도 눈 깜빡할 사이에 처리합니다. 무엇보다 좋은 점은, 우리가 2편에서 설치한 주피터 노트북에서 이 표를 아주 깔끔하게 확인할 수 있다는 것입니다. 2. 실전: 데이터 로딩을 위한 마법의 3줄 코드 자, 이제 주피터 노트북을 켜고 새 셀에 아래 코드를 입력해 보세요. (실험 데이터 파일이 data.csv 라는 이름으로 같은 폴더에 있다고 가정하겠습니다.) Python import pandas as pd # 1. 데이터를 불러와서 df라는 변수에 담기 df = pd.read_csv( 'data.csv' ) # 2. 데이터의 앞부분 5줄만 살짝 보기 print(df.head()) 이게 끝입니다. 믿기지 않겠지만, 이 3줄이면 엑셀이 5분 동안 끙끙대며 열던 파일을 0.1초 만에 불러올 수 있습니다. 여기서 df 는 DataFrame 의 약자로, 앞으로 우리가 다룰 데이터 뭉치를 부르는 이름입니다. 3. 연구원들이 가장 많이 겪는 '...