목록전체 글 (117)
ROKO

Sequence to sequence modeldecoder에서 막연히 전체 문장을 greedy decoding으로 생성하면 안될까라는 생각이 들 수 있다. 하지만 greedy decoding을 사용하면 전체 문맥을 고려하지않고 앞부분에서 생성된 출력만을 기준으로 찾게되어 부정확한 출력이 나올 수 있다. 또한 greedy search는 엄청나게 많은 search space를 소비한다.Beam search & Length normalizationBeam search 과정에서 text length가 길어질수록 text token 수가 많아져 error값이 커지고 모델은 적은 loss를 얻기 위해 짧은 text 를 출력하는것을 선호하게 된다. 이를 방지하기 위해 loss function에 length nor..

1-hot representation1-hot representation은 각 단어를 구분하기에는 좋지만 단어간의 유사성을 유지하기는 어렵다. Featured representation: word embedding각 차원마다 특징을 기준으로 학습하도록 할 수 있다면 더 풍부한 표현을 가진 word vector가 생길 것이다.word vector를 시각화한 3D 공간을 보면 비슷한 단어들끼리 뭉쳐있다. Transfer learning and word embeddingsLearn word embeddings from large text corpusTransfer embedding to new task with smaller training setOptional: Continue to finetune the..

NotationLet x is sequence, then

Face verification vs face recognitionVerificationInput image, name/IDOutput whether the input image is that if the claimed personRecognitionHas a database of K personsGet an input imageOutput ID if the image is any of the K persons (or "not recognized")Reconition이 verification보다 더 어려운 작업이다.One-shot learningLearning from one example to recognize the person again.One-shot learning은 similarity func..

Intersection of union (IoU)IoU = intersection of area / union of area 는 bounding box를 얼마나 잘 맞췄는지에 대한 평가지표로 사용된다.Non-max suppression (NMS)grid cell 을 기준으로 object의 mid point를 찾을때 하나의 object에 여러 bounding box가 중복될 수 있다. 중복된 box들은 계산 복잡도를 증가하고 비효율적이기 때문에 Non-max suppresion으로 중복된 box를 제거한다. 우선 특정

Classification with localization

LeNet -5활성함수로 ReLU가 아닌 sigmoid/tanh를 썼다. 논문 section 2,3 에 흥미로운 내용을 담고 있으니 읽어보기 추천한다.http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf AlexNet당시 자원의 한계로 multi-gpu를 사용해 학습하였다. Local Response Normalization (LRN)을 사용했는데, channel 을 기준으로 정규화하는 방법이다. 현재는 사용하지 않는다. VGG-16적은 parameter를 사용하지만 연산량이 그만큼 늘어난다. 계층적 filter를 통해 recepive field가 filter가 큰 경우를 해결한 논문이다.ResNetsResNet의 motivation은 신경망이 깊을..

컴퓨터 비전의 가장 큰 문제중 하나는 input size가 매우 크다는 것이다. 고화질의 사진일수록 하나의 이미지에 구성되는 화소가 많으므로 많은 연산량이 필요하다. 그러면 가중치는 매우 커지고 모델이 과적합 될 확률이 높아지는데 이를 완화화기 위한 고해상도 이미지 데이터를 모델에 필요한 만큼 구하기는 쉽지 않다. 이미지가 주어졌을때 이미지에 대한 특징을 추출하는 기본적인 방법은 수직 방향, 수평 방향 가장자리 (vertical, horizontal edge)를 구하는 것이다.python 에서는 * (convolution, element-wise multiplication) 연산자로 표현한다.I: height, width sizeF: filter size (위치 파악을 위해 주로 홀수로 사용)P: pad..

Error analysis90%의 정확도를 보이는 고양이 분류기를 만들었다. 그런데 고양이 분류기가 자꾸 강아지를 오분류하자. 동기가 강아지의 경우를 잘 튜닝하도록 모델을 학습하는 것이 어떤지 물었다. 이 과정에 들어간 기회비용을 따졌을때 강아지에 대한 경우에 집중하는게 좋을까? 이를 쉽게 판단하기 위한 방법이 error analysis이다. 100개의 오분류 데이터를 가져와 강아지였던 경우를 센다. 만약 100개의 데이터에서 5개의 강아지 사진이 나왔다면 10% error에서 5/100 만큼의 오류를 해결할 수 있다는 뜻이고 9.5% error로 낮출 수 있다. 이렇게 보면 오른 성능에 대비해 좋은 선택이 아니라는 것을 알 수있다. 만약 50/100 이 강아지였다면 10% error에서 5% error..

Orthogonalization딥러닝 모델을 최적화 하기 위한 hyperparameter들을 한번에 고려하는 것이 아닌 직교화 (orthogonalization)하여 각 hyperparameter를 하나씩 조정하는 것을 의미한다. ex) Chain of assumptions in MLFit training set well on cost function (bigger model, optimizer, early stopping, ...)Fit dev set well on cost function (regularization, bigger train set, early stopping, ...)Fit test set well on cost funtion (bigger dev set, ...)Performs ..