[연구 자동화 #3] Pandas 기초: 수만 행의 실험 데이터를 단 3줄의 코드로 불러오기
연구실에서 가장 흔하게 접하는 데이터 형식은 아마 .csv 혹은 .xlsx 일 것입니다. 보통은 이 파일을 확인하기 위해 엑셀을 먼저 실행하죠. 하지만 데이터가 10만 행을 넘어가면 엑셀은 로딩 바를 띄우며 우리의 인내심을 테스트합니다. 파이썬의 핵심 라이브러리인 **Pandas(판다스)**를 사용하면 이런 기다림은 과거의 일이 됩니다. 판다스는 파이썬계의 '엑셀'이라고 불리지만, 그 성능과 확장성은 비교할 수 없을 정도로 강력합니다. 오늘은 복잡한 문법 다 치워버리고, 딱 3줄의 코드 로 데이터를 장악하는 법을 알아보겠습니다. 1. 판다스(Pandas)라는 강력한 엔진 이해하기 판다스는 데이터를 'DataFrame'이라는 형식으로 다룹니다. 쉽게 말해 **'파이썬 안에 떠 있는 엑셀 시트'**라고 생각하면 됩니다. 엑셀은 눈에 보이는 셀 하나하나를 수정하는 방식이라 무겁지만, 판다스는 데이터를 메모리에 올린 뒤 행과 열이라는 구조를 통해 연산하기 때문에 수만 줄의 데이터도 눈 깜빡할 사이에 처리합니다. 무엇보다 좋은 점은, 우리가 2편에서 설치한 주피터 노트북에서 이 표를 아주 깔끔하게 확인할 수 있다는 것입니다. 2. 실전: 데이터 로딩을 위한 마법의 3줄 코드 자, 이제 주피터 노트북을 켜고 새 셀에 아래 코드를 입력해 보세요. (실험 데이터 파일이 data.csv 라는 이름으로 같은 폴더에 있다고 가정하겠습니다.) Python import pandas as pd # 1. 데이터를 불러와서 df라는 변수에 담기 df = pd.read_csv( 'data.csv' ) # 2. 데이터의 앞부분 5줄만 살짝 보기 print(df.head()) 이게 끝입니다. 믿기지 않겠지만, 이 3줄이면 엑셀이 5분 동안 끙끙대며 열던 파일을 0.1초 만에 불러올 수 있습니다. 여기서 df 는 DataFrame 의 약자로, 앞으로 우리가 다룰 데이터 뭉치를 부르는 이름입니다. 3. 연구원들이 가장 많이 ...