본문 바로가기
TIL(Today I learned)/파이썬 활용 전처리

Chapter 1. 왜 전처리가 중요한가요?(Part 1. 데이터 핸들링)

by DOTMAKER 2021. 4. 27.

 이전 캐글, 데이콘에 참여하며 가장 힘들었던 부분은 전처리 파트였다. 분명 모델에 알맞는 데이터의 모양이 있고, 예측력을 높이는 데이터의 특성도 있다. 하지만 이와 관련된 내용을 공부해본 적 없는 나에게 전처리는 고통 그 자체였다. 

 

 이를 해결하고자 온라인 전처리 강의를 수강하고 있다. 앞으로 전처리에 대한 전반적인 내용과 효율적인 코딩 방법에 대해 글을 쓰고자 한다. 

 


 그렇다면 왜 전처리가 중요하고 이를 연습해야 하는가?

이유는 크게 세가지이다. 

 

1. 현실 데이터는 분석 목적에 맞게 정리되어 있지 않다. 

2. 데이터 분석에서 전처리는 필수적인 과정이고 많은 분석가들이 데이터 전처리에 가장 많은 시간을 투입한다.

데이터 분석시 어떤 부분에 시간을 쏟는지

3. 불필요한 정보를 제거함으로써 효율적인 분석을 가능하게 하고 모델의 성능을 향상시킨다. 


 전처리를 잘하고 싶다면? 다음 세가지를 꼭 기억하자

1. 구글링 도사가 되자. 

- 검색 쿼리 팁: 언어, 모듈, how, 내용을 포함시키자.

2. 전처리된 데이터의 구조를 미리 시각화하자. 짧게라도 노트에 적어보자. 

전처리된 데이터 구조 시각화 예시

3. 원 데이터를 결과 데이터로 바꾸기 위해서 어떤 과정이 필요한지 프로세스를 적어보자. 

- 위 사례는 다음과 같은 과정이 필요하다. 

- 물품 목록 가져오기 -> 회원별 구매 물품 사전화 -> 회원별 구매 물품 벡터화

 


 가장 어려워 하는 것을 이겨내는 방법은 가장 좋아하는 방법 뿐이다. 모든 이들이 어려워 하는 것을 잘하면 그만큼 나의 무기가 된다. 갈고 닦자.