ROKO

250x250

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

목록전체 글 (117)

ROKO

[coursera] Sequence Models: Week 3

Sequence to sequence modeldecoder에서 막연히 전체 문장을 greedy decoding으로 생성하면 안될까라는 생각이 들 수 있다. 하지만 greedy decoding을 사용하면 전체 문맥을 고려하지않고 앞부분에서 생성된 출력만을 기준으로 찾게되어 부정확한 출력이 나올 수 있다. 또한 greedy search는 엄청나게 많은 search space를 소비한다.Beam search & Length normalizationBeam search 과정에서 text length가 길어질수록 text token 수가 많아져 error값이 커지고 모델은 적은 loss를 얻기 위해 짧은 text 를 출력하는것을 선호하게 된다. 이를 방지하기 위해 loss function에 length nor..

Artificial Intelligence/Deep Learning 2024. 7. 9. 17:40

[coursera] Sequence Models: Week 2

1-hot representation1-hot representation은 각 단어를 구분하기에는 좋지만 단어간의 유사성을 유지하기는 어렵다. Featured representation: word embedding각 차원마다 특징을 기준으로 학습하도록 할 수 있다면 더 풍부한 표현을 가진 word vector가 생길 것이다.word vector를 시각화한 3D 공간을 보면 비슷한 단어들끼리 뭉쳐있다. Transfer learning and word embeddingsLearn word embeddings from large text corpusTransfer embedding to new task with smaller training setOptional: Continue to finetune the..

Artificial Intelligence/Deep Learning 2024. 7. 9. 14:42

[coursera] Sequence Models: Week 1

NotationLet x is sequence, then $x^{}$ : data indexed with position in x $x^{(r)}$ : $s^{t h}$ word in the $r^{t h}$ training examples $T_{x}$ : length of sequence data xdictionary에 자주 언급되는 단어들을 모아놓고 dictionary 크기만큼의 one-hot vector로 mapping하여 단어를 표현한다. Sequence data를 standard network로 다루기 힘든 이유는 input, output이 데이터마다 다르기 때문이다. 가장 큰 표현을 벡터 크기로 고정하고 빈 공간은 padding하는 방법이 있지만 비효율적이다. 그리고 다른 문제점은 서로 다..

Artificial Intelligence/Deep Learning 2024. 7. 3. 16:03

[coursera] Convolutional Neural Networks: Week 4

Face verification vs face recognitionVerificationInput image, name/IDOutput whether the input image is that if the claimed personRecognitionHas a database of K personsGet an input imageOutput ID if the image is any of the K persons (or "not recognized")Reconition이 verification보다 더 어려운 작업이다.One-shot learningLearning from one example to recognize the person again.One-shot learning은 similarity func..

Artificial Intelligence/Deep Learning 2024. 7. 3. 14:39

[coursera] Convolutional Neural Networks: Week 3-2

Intersection of union (IoU)IoU = intersection of area / union of area 는 bounding box를 얼마나 잘 맞췄는지에 대한 평가지표로 사용된다.Non-max suppression (NMS)grid cell 을 기준으로 object의 mid point를 찾을때 하나의 object에 여러 bounding box가 중복될 수 있다. 중복된 box들은 계산 복잡도를 증가하고 비효율적이기 때문에 Non-max suppresion으로 중복된 box를 제거한다. 우선 특정 $p_{c}$ 값보다 적은 box들을 제거하고 나머지 box들에 NMS를 적용한다.Anchor box하나의 grid cell은 하나의 object밖에 예측하지 못하는건 한계점이다. 같은 gi..

Artificial Intelligence/Deep Learning 2024. 7. 3. 10:25

[coursera] Convolutional Neural Networks: Week 3-1

Classification with localization $y = [p_{c}, b_{x}, b_{y}, b_{h}, b_{w}, c_{1}, c_{2}, c_{3}]$ $y_{1} = p_{c}$ : 객체가 있는지 없는지에 대한 확률 $b_{x}, b_{y}$ : 객체의 중심좌표 $b_{h}, b_{w}$ : bounding box의 높이와 너비 $c_{1}, c_{2}, c_{3}$ : 각 클래스에 해당할 확률loss 는 객체가 있을 경우 전부를 고려해서 계산하고, 객체가 없는 경우 객체 확률만 고려한다. (나머지는 객체가 없는 상황에서 무의미하기 때문) bounding box는 squared error, class는 softmax, $p_{c}$ 는 logisitic regression loss를 사용할 수 있다.Landmark detection객체 탐지를 넘어 특정 ..

Artificial Intelligence/Deep Learning 2024. 7. 3. 01:32

[coursera] Convolutional Neural Networks: Week 2

LeNet -5활성함수로 ReLU가 아닌 sigmoid/tanh를 썼다. 논문 section 2,3 에 흥미로운 내용을 담고 있으니 읽어보기 추천한다.http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf AlexNet당시 자원의 한계로 multi-gpu를 사용해 학습하였다. Local Response Normalization (LRN)을 사용했는데, channel 을 기준으로 정규화하는 방법이다. 현재는 사용하지 않는다. VGG-16적은 parameter를 사용하지만 연산량이 그만큼 늘어난다. 계층적 filter를 통해 recepive field가 filter가 큰 경우를 해결한 논문이다.ResNetsResNet의 motivation은 신경망이 깊을..

Artificial Intelligence/Deep Learning 2024. 7. 2. 23:48

[coursera] Convolutional Neural Networks: Week 1

컴퓨터 비전의 가장 큰 문제중 하나는 input size가 매우 크다는 것이다. 고화질의 사진일수록 하나의 이미지에 구성되는 화소가 많으므로 많은 연산량이 필요하다. 그러면 가중치는 매우 커지고 모델이 과적합 될 확률이 높아지는데 이를 완화화기 위한 고해상도 이미지 데이터를 모델에 필요한 만큼 구하기는 쉽지 않다. 이미지가 주어졌을때 이미지에 대한 특징을 추출하는 기본적인 방법은 수직 방향, 수평 방향 가장자리 (vertical, horizontal edge)를 구하는 것이다.python 에서는 * (convolution, element-wise multiplication) 연산자로 표현한다.I: height, width sizeF: filter size (위치 파악을 위해 주로 홀수로 사용)P: pad..

Artificial Intelligence/Deep Learning 2024. 7. 2. 16:38

[coursera] Introduction to ML Strategy: Week 2

Error analysis90%의 정확도를 보이는 고양이 분류기를 만들었다. 그런데 고양이 분류기가 자꾸 강아지를 오분류하자. 동기가 강아지의 경우를 잘 튜닝하도록 모델을 학습하는 것이 어떤지 물었다. 이 과정에 들어간 기회비용을 따졌을때 강아지에 대한 경우에 집중하는게 좋을까? 이를 쉽게 판단하기 위한 방법이 error analysis이다. 100개의 오분류 데이터를 가져와 강아지였던 경우를 센다. 만약 100개의 데이터에서 5개의 강아지 사진이 나왔다면 10% error에서 5/100 만큼의 오류를 해결할 수 있다는 뜻이고 9.5% error로 낮출 수 있다. 이렇게 보면 오른 성능에 대비해 좋은 선택이 아니라는 것을 알 수있다. 만약 50/100 이 강아지였다면 10% error에서 5% error..

Artificial Intelligence/Deep Learning 2024. 7. 2. 00:43

[coursera] Introduction to ML Strategy: Week 1

Orthogonalization딥러닝 모델을 최적화 하기 위한 hyperparameter들을 한번에 고려하는 것이 아닌 직교화 (orthogonalization)하여 각 hyperparameter를 하나씩 조정하는 것을 의미한다. ex) Chain of assumptions in MLFit training set well on cost function (bigger model, optimizer, early stopping, ...)Fit dev set well on cost function (regularization, bigger train set, early stopping, ...)Fit test set well on cost funtion (bigger dev set, ...)Performs ..

Artificial Intelligence/Deep Learning 2024. 7. 1. 22:04

Prev 1 2 3 4 5 ··· 12 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ROKO

목록전체 글 (117)

ROKO

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역