1.  머신러닝이란

  • 인공지능 : 인공(artificial) + 지능(Interlligence)
  • 즉, 개발자에 의한 인공지능, 데이터에 의한 인공지능을 뜻합니다.
  • 머신러닝 : 데이터를 기반으로 한 학습(learning)하는 기계(machine)를 뜻합니다.
  • 딥러닝 : 깊은(deep) 신경망 구조의 머신러닝을 뜻합니다.

1-1.  배경

  • 과거 컴퓨터로 데이터를 읽어들이고, 데이터 안에서 특징을 학습하여 패턴을 찾아내는 작업 즉, 패턴인식
  • 데이터를 대량으로 수집 처리할 수 있는 환경이 갖춰짐으로 할 수 있는 일들이 많아짐
  • 머신러닝은 데이터로부터 특징이나 패턴을 찾아내는 것이기 때문에 데이터가 가중 중요함.

1-2.  정의

  • 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
  • "무엇(x)으로 무엇(y)을 예측하고 싶다"의 f(함수)를 찾아내는 것
  • x : 입력변수(독립변수)
  • y : 출력변수(종속변수)
  • f : 모형(머신러닝 알고리즘)

2. 머신러닝으로 할 수 있는것

2-1.  회귀(Regression)

  • 시계열(시간적인 변화를 연속적으로 관측한 데이터) 데이터 같은 연속된 데이터를 취급할 때 사용하는 기법
  • 예) 과거 주식 추세를 학습해서 내일의 주가를 예측하는 시스템을 개발

2-2.  분류(Classification)

  • 주어진 데이터를 클래스별로 구별해 내는 과정으로 데이터와 데이터의 레이블값을 학습시키고 어느 범주에 속한 데이터인지 판단하고 예측
  • 예) 스팸메일인지 아닌지 구별해주는 시스템을 개발

2-3.  클러스터링(Clustering)

  • 분류와 비슷하지만 데이터에 레이블(정답 데이터)이 없음
  • 유사한 속성들을 갖는 데이터를 일정한 수의 군집으로 그룹핑하는 비지도 학습
  • 예)SNS 데이터를 통해 소셜 및 사회 이슈를 파악

3. 학습방법

3-1.  지도 학습(Supervised Learning)

  • 문제와 정답을 모두 학습시켜 예측 또는 분류하는 문제
  • y=f(x)에 대하여 입력 변수(x)와 출력 변수(y)의 관계에 대하여 모델링 하는 것
  • y에 대하여 예측 또는 분류하는 문제

3-2.  비지도 학습(Unsupervised Learning)

  • 출력변수 (y)가 존재하지 않고, 입력 변수(x)간의 관계에 대해 모델링 하는 것
  • 군집분석 : 유사한 데이터끼리 그룹화
  • PCA : 독립변수들의 차원을 축소화

3-3. 자기지도 학습(Self-Supervised Learning)

  • 데이터 자체에서 스스로 레이블을 생성하여 학습에 이용하는 방법
  • 다량의 Label이 없는 Raw Data로 부터 데이터 부분들의 관계를 통해 Label을 자동으로 생성하여 지도학습에 이용하는 비지도 학습 기법
  • BERT, GPT 모델

3-4. 강화 학습(Reinforcement Learning)

  • 결정을 순차적으로 내려야 하는 문제에 적용
  • 라벨이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게 보상이라는 개념을 사용하여 가중치와 편향을 학습하는 것