ROKO

What is ML? 본문

Artificial Intelligence/Machine Learning

What is ML?

RO_KO 2022. 9. 9. 18:48
728x90

ML(Machine Learning)을 다루기 앞서 컴퓨터 공학에서 학습의 의미란 무엇일까?

컴퓨터 프로그램은 experience(E)이나 Data를 통해 학습하여 tasks들을 수행하고 performance measure(P)를 나타낸다.

즉, ML 은 데이터 학습을 통해 알고리즘을 자동으로 만드는 프로그래밍이다.

 

예를 들면 강아지와 고양이 사진 10000장을 구분하는 작업을 할때, 한장씩 사람이 구분하는것보다 사진에서 강아지와 고양이의 특징을 구분해 분류하는 알고리즘을 만들어 낸다면 작업효율이 올라갈 것이다.

 

그리고 프로그램이 분류 알고리즘 또한 스스로 학습할 수 있다면 우리는 좋은 데이터를 구하여 학습만 시키면 된다. ML은 데이터를 패턴을 파악하여 넣어주어야 하는데 DL(Deep Learning)의 경우 데이터의 패턴과 알고리즘까지 모두 스스로 학습하는 장점이 있다.


Learning algarithm을 사용하는 이점

  • 많은 문제들에 대한 수작업의 어려움이 해소된다.
  • 시스템이 변화하는 환경에 쉽게 적응할 수 있다.
  • 사람이 직접 프로그래밍한 분류 알고리즘 보다 더 좋은 분류 알고리즘을 학습해 알아낼 수 있다.
  • 객관전으로 바라봄으로써 공정하고 정확히 작업을 수행할 수 있다.

AI 개념 관계도


통계와 관계성

공통점

  • ML과 Statistics 모두 데이터 속 패턴들을 추출한다.
  • 핵심 알고리즘과 개념을 공유하며 선형대수학(linear algebra), 확률론(probability), 미적분학(calculus)을 다룬다.

차이점

  • Stats는 수학적 의미를 강조하는 반면 ML은 예측과 자동화에 초점을 맞추고 있다.
  • Stats은 과학자나 정책을 수립함에 있어 자료로 많이 사용되나 ML은 자동화 프로그램을 만드는데 집중되어 있다.

AI와 관계성

ML은 AI에 포함되어 불려지나 AI는 학습 기반 시스템(learning-based system)만을 말하는 것은 아니다. 

  1. Symbolic reasoning (상징 추론)
  2. Rule-based system (규칙 기반 시스템)
  3. Tree search (트리 검색)
  4. etc

 


Types of ML

  • Supervised learning (지도 학습)
    • Data-Label 형태로 학습 (Ex 고양이 사진 - 고양이)
    • memorization, NN(nearest neighbor), etc
  • Unsupervised learning (비지도 학습)
    • Label 없이 Data만으로 학습, Data간 패턴, 유사성을 파악 (Ex 고양이 사진들은 귀가 뾰족하고, 세로 동공이다)
    • clustering, compressed representation, features, generative model, etc
  • Reinforcement learning (강화 학습)
    • 행동에 대한 보상을 주는 형태로 보상을 최대화 하기 위한 학습을 진행 (Ex 골대에 공을 넣으면 +2 아니면 -1을 주는 시스템)

 

각 경우에서 신경망을 추가하여 모델이 발전할 경우 DL이 되는 것이다. ML은 현재 다양한 분야에서 아직 사용중이고 DL에서 많이 적용되기 때문에 공부하면 많은 도움이 될 것이다.

 

알아두면 좋은 Python Library : Numpy, Pytorch, TensorFlow, Scipy, Theano, etc

Kaggle Survey

 

2021년 kaggle에서 조사한 내용인데 참고할만한 부분을 발췌하였다. 출처는 아래 링크를 확인하면 된다.

나이는 주로 22세에서 34라고 한다. 한국에서 22세면 대학교 2,3,학년 정도인데 이 나이때에 주로 시작한다고하니 너무 겁먹지 않고 천천히 시작해 보면 좋을 것 같다.

사용한 개발환경은 주피터 노트북과 vscode가 주를 이루고 그 뒤로 Pycharm이 있다. 주피터 노트북과 vscode는 무료이므로 둘 중하나를 사용하면 될 것이다. 하지만 시간이 지나면 둘 다 다룰수 있는게 좋다. 각각 장단점이 있기 때문이다. Pycharm 경우 유료 사용인데 대학생일시 대학교 인증을 통해 1년 동안 무료로 사용할 수 있고 매년 갱신하여 학부생동안 사용할 수 있다.

 

주로 사용하는 알고리즘 분포도를 확인하면 DL에 해당하는 CNN이 4번째고 1,2,3위는 ML의 모델 방식들 중 하나인 것을 확인 할 수있다.

아직 ML이 많이 쓰인다는 말의 객관적 자료로 ML의 필요성과 공부를 해야하는 이유는 충분한 것 같다.

https://www.kaggle.com/kaggle-survey-2021
 

State of Data Science and Machine Learning 2021

Download our executive summary for a profile of today's working data scientist and their tools

www.kaggle.com

 

728x90

'Artificial Intelligence > Machine Learning' 카테고리의 다른 글

What is Linear Regression?  (0) 2022.10.12
Ensemble (Bagging, Boosting)  (0) 2022.10.10
What is Decision Trees?  (3) 2022.09.19
What is Nearest Neighbor?  (0) 2022.09.10
Comments