본문 바로가기

전체 글7

Chapter 2. 파이썬 데이터 구조(Part 1. 데이터 핸들링) 주요 코드만 리뷰하겠습니다. 1. 리스트와 튜플 # 리스트 순회 속도 측정: import time start_time = time.time() for val1 in large_L: pass end_time = time.time() print(end_time - start_time) # 튜플 순회 속도 측정: 데이터가 큰 경우는 리스트로 작업한 후, 튜플로 자료형을 바꾸고 순회를 하게 된다. start_time = time.time() for val2 in large_T: pass end_time = time.time() print(end_time - start_time) 위 코드로 순회 속도 측정 결과 튜플이 0.001초 더 빨랐습니다. 때문에 요소 변경이 필요 없고 단순 결과 도출만을 목적으로 할 때는.. 2021. 4. 27.
Chapter 1. 왜 전처리가 중요한가요?(Part 1. 데이터 핸들링) 이전 캐글, 데이콘에 참여하며 가장 힘들었던 부분은 전처리 파트였다. 분명 모델에 알맞는 데이터의 모양이 있고, 예측력을 높이는 데이터의 특성도 있다. 하지만 이와 관련된 내용을 공부해본 적 없는 나에게 전처리는 고통 그 자체였다. 이를 해결하고자 온라인 전처리 강의를 수강하고 있다. 앞으로 전처리에 대한 전반적인 내용과 효율적인 코딩 방법에 대해 글을 쓰고자 한다. 그렇다면 왜 전처리가 중요하고 이를 연습해야 하는가? 이유는 크게 세가지이다. 1. 현실 데이터는 분석 목적에 맞게 정리되어 있지 않다. 2. 데이터 분석에서 전처리는 필수적인 과정이고 많은 분석가들이 데이터 전처리에 가장 많은 시간을 투입한다. 3. 불필요한 정보를 제거함으로써 효율적인 분석을 가능하게 하고 모델의 성능을 향상시킨다. 전처.. 2021. 4. 27.
1장 통계학이란? 1.1 통계학이란? 통계학은 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료를 수집, 정리, 요약, 분석하여 표본의 특성을 파악하고 이를 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문이다. 사실 데이터 분석의 가장 기초, 기본이 되는 학문이다. 위 개념은 일차적으로 두가지로 나뉘어 진다. 기술 통계학과 추론 통계학이다. 기술 통계학: 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 표나 그림 또는 특성값 등을 통하여 정리, 요약하는 방법을 다루는 분야 추론 통계학: 모집단으로부터 추출된 표본의 정보를 사용하여 모집단의 특성을 파악하는 분야이다. 방법론적인 측면에서는 연역적 방법과 귀납적 방법으로 구분되다. 연역적 방법: 모집단 정보를 이용하여 모집단으로부터 추출된 표본의.. 2021. 4. 26.