EDA는 Exploratory Data Analysis의 약어로 데이터 분석을 준비하기 위한 처리이다.
즉, raw data를 분석이나 모델링을 위한 형태로 변환하는 과정으로 데이터 품질과 모델의 성능을 향상시키기위해 분석 전 필수적인 단계이다.
분석을 위한 데이터는 3가지로 나눌 수 있다.
수치형 데이터: 문자열이나 수치 등의 데이터 타입.
그래프 데이터: 데이터 사이의 연결을 나타냄
멀티미디어 데이터: 이미지, 음성, 동영상 등의 멀티미디어 데이터
전처리는 3가지 목적에 따라 과정이 달라질 수 있습니다.
지표를 작성하기 위한 전처리
표, 그래프 등을 쉽게 변환하기 위해서 필요한 column이 있고, 다루기 쉬운 행이 필요한 범위만큼 존재하는 데이터가 필요합니다.
전퍼리 후, a 회사의 월평균 최소/최대 매출을 구할수도 있으며 매상에 관한 데이터를 월별/연령별로 지표로 준비하게 되면 매상과 지표의 관계성을 알 수 있습니다.
지도학습을 위한 전처리
지도학습은 supervised learning 으로 데이터를 학습데이터와 테스트 데이터로 나눠 학습데이터는 머신러닝의 모델 훈련에 사용하고, 테스트 데이터는 모델의 정확도를 예측할 때 사용하는 데이터로 모델학습을 위해 사용합니다.
지도학습에는 로지스틱 회귀 모델이 있습니다. 로지스틱 회귀 모델은 로지트 변환을 적용한 0 또는 1 플래그에 대한 1차 함수의 선형 모델입니다. '연령이 높을수록 당뇨가 잘 걸린다.' 를 증명하기 위해, 연령을 범주형으로 데이터를 전처리할 수 있습니다.
비지도학습을 위한 전처리
비지도 학습은 학습 데이터를 활용해서 새로운 데이터를 출력합니다.
클러스터링은 학습 데이터 값에서 데이터 간의 거리를 계산하고, 거리에 따라 데이터 분류한 뒤 입력한 각 데이터의 그룹번호를 출력하게 됩니다.
비지도 학습은 머신러닝 모델의 종류에 따라 다루기 쉬운 데이터로 변환해야 합니다.
성별 열을 문자열에서 범주형으로 변환하므로서, 남성과 여성을 분류합니다.
또는 열마다 데이터 크기가 다른 수치형 데이터를 활용하기 위해서는 전처리 작업인 '정규화'가 필요합니다.
확인하고 싶은 내용이나 머신러닝 모델의 특성을 파악해 전처리 과정도 달라지게 되어있습니다.
Registration is open! SAS is returning to Vegas for an AI and analytics experience like no other! Whether you're an executive, manager, end user or SAS partner, SAS Innovate is designed for everyone on your team. Register for just $495 by 12/31/2023.
If you are interested in speaking, there is still time to submit a session idea. More details are posted on the website.