ROKO

[coursera] Neural Networks and Deep Learning: Week 4 본문

Artificial Intelligence/Deep Learning

[coursera] Neural Networks and Deep Learning: Week 4

RO_KO 2024. 6. 29. 18:05
728x90

Notation

  • L = #layers
  • \(n^{[l]}\) = #units in layer \(l\), (input = layer "0")

deep network의 forward propagation을 vectorization으로 표현하면 아래와 같다.

\(Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}\)

\(A^{[l]}=g^{[l]}(Z^{[l]})\)

 

deep learning 잘되는 이유를 직관적으로 이해해보자. 위 그림은 face detection 을 위한 모델인데, 앞부분에서는 edge 같은 간단한 특징들을 추출하고 이후부터 더 복잡한 눈, 코, 입 마지막은 다양한 사람들의 얼굴 종류를 추출하는것을 알 수있다. 따라서 딥러닝은 간단한 특징으로부터 복잡한 특징을 구현해 학습하는 능력을 가지고 있기에 좋은 성능을 보인다고 이해하면 좋다.

Circuit theory를 기반으로한 이해로는 같은 문제를 풀기위해 shallow network를 사용하게 되면 필요한 노드 개수가 증가하지만 deep network 에서는 적은 수의 노드로 가능하다는것을 볼 수있다.

 

Forward and backward functions

forward 과정에서 cache를 이용해 Z, W, b 값을 저장하고 backward 시에 cache값을 활용해 효율적으로 계산한다.

https://jonaslalin.com/2021/12/10/feedforward-neural-networks-part-1/

 

Feedforward Neural Networks in Depth, Part 1: Forward and Backward Propagations

This post is the first of a three-part series in which we set out to derive the mathematics behind feedforward neural networks. They have

jonaslalin.com

 

* hyperarameter는 모델이 학습하지 못하고 사람이 직접 정해주어야 하는 값이다.

* parameter는 반대로 모델이 학습하는 값으로 W,b에 해당한다. (activation 은 해당 하지 않음)

728x90
Comments