간단 지식/Deep Learning

01. what is Machine Learning?

납작한돌맹이 2020. 9. 18. 21:56
반응형

위 그림은 인공지능, 머신러닝, 딥러닝의 관계이다. 우리가 포괄적으로 생각하는 인공지능은 인간을 대신할 수 있는 컴퓨터 기술이지만, 정확히는 머신러닝과 딥러닝을 포함해서 아우르는 기술이다. 

 

Machine Learning은 한글로 기계 학습이다. learning은 model을 만드는 과정이다. 여기서 말하는 모델은 이론과 여러 실험으로 얻은 규훈을 합친 공식이 되겠다. 즉, 좋은 학습을 통해 좋은 모델을 만드는 것이 좋은 머신러닝 기술이 되는 것이다. 좋은 학습을 위해서는 데이터가 필요하다. 복잡한 현실에서는 발견하기 어려운 정보를 단순 데이터화해서 발견하는 데이터 산업인 data science와 data engineering이 있다. data science는 데이터를 만들고 사용하는 산업이고, data engineering은 데이터를 다루는 도구를 만들고 관리하는 산업이다.

 

일반적으로 데이터를 관리한다면 표에 관리하는 것을 일차적으로 떠올릴 것이다.

data set이라고 부르며,

행(row) = 객체(instance), 관측치(observed value), 기록(record), 사례(example), 경우(case)

열(column) = 특성(feature), 변수(variable), 속성(attribute/field)

가 동일어가 되겠다.

이름 공부시간 성적 교실 학년
모모 2 20 A 1
미미 4 40 B 2
뫄뫄 6 60 B 2
묘묘 8 80 A 1

 위 표를 보면 일정한 규칙이 눈에 들어온다. 공부시간에 따라 성적이 일정하게 증가함을 알 수 있다. 이렇게 '원인과 결과' 라는 상관관계를 갖는 두 변수를 독립변수와 종속변수라고 부른다. 여기서 독립변수는 공부시간, 종속변수는 성적이 되겠다. 독립변수와 종속변수는 관계로 이어져 있는데, 이러한 관련성을 상관관계라고 한다. 더 세분화해서 공부시간과 성적처럼 두 변수가 원인과 결과 관계라는 방향성을 가지면 인과 관계라고 부른다.


위 그림은 머신러닝의 구분을 표현한 그림이다. 각각의 개념에 대해 알아보자.

 

지도학습(Supervised Learning)은 결과예측에 사용하기 위한 모델을 생성하기 위해 데이터로 컴퓨터를 학습시키는 기술이다. 예측하고 싶은 것이 무엇이냐에 따라 분류와 회귀로 나뉜다.

분류(Classification)는 예측하고 싶은 결과(종속변수)가 문자일 때, 즉 범주형 데이터일 때를 말한다.

회귀(Regression)는 예측하고 싶은 결과(종속변수)가 숫자일 때, 즉 양적 데이터일 때를 말한다.

독립변수 종속변수  
공부시간 시험 합격 여부 분류
과일의 당도 과일의 품질 분류
몸무게 체급 분류
공부시간 시험 점수 회귀
운동시간 소모 칼로리 회귀

위 표와 같은 관계라고 생각하면 이해가 더 쉽다. 이렇게 보면 알 수 있겠지만 지도학습은 데이터에 독립변수와 종속변수가 존재해야 한다는 것이 전제조건이다.


비지도학습(Unsupervised Learning)은 컴퓨터를 학습시키는 것이 아닌, 컴퓨터가 무언가를 관찰하게 해서 새로운 의미, 관계를 밝히게 하는 기술이다. 어떻게 새로운 의미를 발견하느냐에 따라 군집화, 연관, 변환으로 나뉜다. 군집화와 유사한 개념이 분류인데, 명백히 다른 개념이다.

군집화(Clustering)는 비슷한 성질을 띄는 데이터들을 분류할 수 있도록 클러스터를 생성하는 기법이다. 즉, 가까운 관측치를 찾을 수 있도록 바탕을 마련해준다고 생각하면 된다. 반면에 분류는 관찰한 데이터들을 군집화를 통해 생성된 클러스터에 알맞게 위치시키는 기법을 말한다.

연관(Association)은 연관규칙학습을 말하며, 연관규칙이란 연관성을 찾게 해주는 도구이다. 즉, 표에서 서로 관련있는 특성 열을 그룹짓는 기법이다. 예를 들어 아래 표를 보자.

이름 문이과 사회 과학
모모 문과 P NP
미미 문과 P NP
뫄뫄 문과 NP NP
묘묘 이과 NP P
띠띠 이과 NP P
또또 이과 P P

 문과인 학생들은 주로 사회 성적이 P인 편에 비해 과학 성적이 NP이다. 이과인 학생들은 과학 성적이 P인 반면에 사회 성적이 NP이다. 이렇게 연관 규칙을 컴퓨터가 깨닫는 것이 연관규칙학습이 되는 것이다.

변환(Transform)은 데이터를 새롭게 표현하여 원래 데이터보다 더 쉽게 해석할 수 있게 하는 기법이다. 예를 들어 dimensionality reduction(데이터 차원 축소)는 불필요한 특성을 삭제하는, 즉 잡음 특징 제거 기법이다. data set이 클수록 데이터 차원이 커지는 문제를 해결하기 위해 등장했다. 즉 input data의 차원을 축소시킴으로써 모델링에 필요한 학습집합크기를 감소시켜 패턴 분류기에 의한 학습과 인식 속도를 증진시킬 수 있다.


강화학습(Reinforcement Learning)은 학습을 통해 모델을 생성하는 방식이라는 점에서는 지도학습과 유사하다. 그러나 지도학습이 정답을 주입시키는 방식이라면, 강화학습은 학습조차도 기계 스스로가 하도록 하여 어떤 학습이 자신에게 이득이 되고 패널티가 되는지를 이해하여 성장하는 기술이다. 즉 선 경험 후 배움이 되겠다. 강화학습이 적용된 예시로는 알파고, 자율주행자동차가 있다. 강화학습에 사용되는 용어로는 environment, agent, state, action, policy, reward가 있다. 자율주행자동차에 대한 용어 적용은 다음과 같다.

예시 해당 용어
도로 environment
자동차 agent
전체 주행 맵 state
자동차의 조작 action
자동차의 판단력 policy
감점 요인 reward

 

 

 

(이 글이 도움이 됐다면 광고 한번씩만 클릭 해주시면 감사드립니다, 더 좋은 정보글 작성하도록 노력하겠습니다 :) )

반응형