머신러닝은 데이터로 학습하고 지식을 추출하는 인공지능의 하위분야입니다.
■ 머신러닝의 종류
머신러닝은 3가지로 분류됩니다.
1) 지도학습(Supervised Learning)
레이블된 데이터
피드백
출력 및 예측
지도학습은 레이블된 훈련 데이터에서 모델을 학습하고 미래를 예측합니다.
'Supervised' 는 레이블이 있는 샘플을 의미합니다. 이는, 특정 샘플에 할당된 class를 레이블이라고 합니다.
개별 클래스 레이블이 있는 지도 학습을 분류(Classification)이라고 하며 연속적인 값을 출력하는 것을 회귀(Regression) 이라고 합니다.
분류는 과거의 관측을 기반으로 새로운 샘플의 범주형 클래스 레이블을 예측하는 것이 목표입니다.
분류(Classification)에는 이진분류(Binary Classification)과 다중 분류(Multiclass Classification)이라고 합니다.
이진 분류는 레이블이 2개로 나눠지고 예를 들면, 광고성 메일과 일반 메일로 나누는 것 입니다.
다중 분류는 손으로 쓴 알파벳을 테스트 데이터로 구성하고 새로운 글자를 입력하게되면 일정한 정확도로 알파벳 글자를 예측합니다.
회귀는 예측변수(=독립변수)가 주어졌을 때, 출력 값을 예측하는 두 변수 사이의 관계를 찾습니다.
예를 들면, A 고등학교에 다니는 학생들의 국어 성적을 예측하기 위해, 시험 공부에 투자한 시간과 국어 성적이 관계가 있다면 훈련 데이터를 학습시키고 모델을 학습니다.
2) 비지도 학습(Unsupervised Learning)
레이블이 없는 데이터
피드백이 존재하지 않음
데이터에서 숨겨진 구조를 찾아야 한다.
비지도학습은 레이블되지 않는 데이터를 활용하여 정보를 추출합니다.
비지도학습에는 군집(Clustering)과 차원축소(Dimensionality Reduction)이 있습니다.
출처: http://www.aistudy.com/pattern/clustering.htm
군집은, 유사성을 공유하고 있는 집단을 그룹으로 분류하고 비슷하지 않은 그룹은을 다르게 나눕니다.
예를 들면, 고객들의 구매기록을 기반으로 고객들을 분류하여 유사한 구매 패턴을 갖는 고객끼리 묶어 마케팅 전략을 세울 수 있습니다.
차원축소란, 고차원의 데이터를 다루어야 할 경우 또는 전처리 단계에서 사용하는 방법으로, 노이즈 데이터를 제거하여 예측 성능을 향상 시킬 수 있습니다.
3) 강화학습 (Reinforce Learning)
결정 과정이 필요하다.
보상 시스템이
연속된 행동에서 학습을 한다.
강화학습은 환경과 상호 작용하여 성능을 향상시킵니다.
환경의 현재 상태 정보에는 보상이란 신호가 포함되어 있으며, 보상을 최대화 하기 위해 행동을 조정하고 시간이 지나고 최적의 전략을 학습합니다.
이는 게임에서 (ex 체스) 주로 사용됩니다.
이 외에도 준지도 학습(Semi-Supervised Learning)이 있습니다.
준지도 학습은, 레이블된 데이터셋과 레이블이 없는 데이터 셋을 모두 사용합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.