정보설명서

우리는 앞서 pd.read_csv() 를 통해 파일을 하나 불러오는 방법을 배웠습니다. 하지만 실무에서는 파일이 하나인 경우가 거의 없습니다. 날짜별, 시료별, 혹은 반복 실험 회차별로 나누어진 수십, 수백 개의 파일이 우리를 기다리고 있죠. 이 파일들을 엑셀에서 수작업으로 합치다 보면 꼭 한두 개씩 데이터를 빼먹거나 순서가 뒤바뀌는 휴먼 에러가 발생합니다. 파이썬은 지치지도 않고, 실수도 하지 않습니다. 폴더 안에 있는 모든 파일을 싹 긁어모아 하나의 거대한 데이터셋으로 만드는 '자동화 파이프라인'을 구축해 봅시다. 1. 파일들의 주소를 찾아주는 비서: glob 라이브러리 가장 먼저 필요한 기술은 폴더 안에 어떤 파일들이 있는지 목록을 만드는 것입니다. 이때 사용하는 것이 glob 이라는 도구입니다. 원리: glob.glob('data/*.csv') 라고 명령하면, 'data'라는 폴더 안에 있는 모든 .csv 파일의 경로를 리스트로 반환합니다. 장점: 파일 이름이 result_01 , result_02 처럼 규칙적이든 아니든 상관없습니다. 확장자만 맞으면 다 찾아냅니다. 2. 반복문의 마법: for 루프와 리스트 활용 파일 목록을 얻었다면, 이제 파이썬에게 이렇게 시킵니다. "목록에 있는 파일을 하나씩 꺼내서 읽고, 바구니에 담아줘." 많은 초보자가 파일을 읽을 때마다 새 변수를 만들려 하지만(df1, df2...), 세련된 방법은 리스트 에 차곡차곡 쌓는 것입니다. Python import pandas as pd import glob # 1. 파일 목록 가져오기 file_list = glob.glob( 'experiment_data/*.csv' ) # 2. 데이터를 담을 빈 바구니(리스트) 만들기 all_data = [] # 3. 반복해서 파일 읽기 for file in file_list: df = pd.read_csv(file) al...

정보설명서

글

[연구 자동화 #5] 반복 작업의 종결자: 수백 개의 실험 파일을 한 번에 통합하고 저장하기