목록Artificial Intelligence (44)
ROKO
복습 겸 DQN에 관련한 문제를 풀어보자. 위 문제의 정답은 1번과 2번이다. 1번의 경우 Monte carlo sampling에 의해 수렴할 것이 보장된다. 2번의 경우 무한히 많은 tuple이 있으므로 population과 같다고 볼 수 있어 estimated dynamics model을 통한 policy evaluation은 같은 결과를 나타낼 것이다. 3번의 경우 experience replay는 temporal correlation을 줄이기 위한 방법이지 convergence를 보장하기 위한 방법이 아니다. Policy GradientPolicy gradient methods have been very influentialSequence Level Training with Recurrent Ne..
1번 질문은 Deterministic이다. policy 식을 보면 arg max로 가장 큰 값을 가지는 선택지 하나를 선택하는 것이므로 deterministic하다. 2번 질문은 False이다. policy가 deterministic 이므로 모든 s,a에 대해서 값을 구할 수는 없다. 가장 좋은 값을 가지는 선택지 하나만 선택하여 임의의 action에 대해 exploration을 하지 않기 때문이다. 3 장에서는 a model of how the world works 에서 evaluation을 보았다면 이번 장은 control에 대해서 알아본다.2번 질문을 동기로 exploration을 하기 위한 방법론을 알아보자.General Policy Iteration (GPI)Policy Iteration과 Po..
Lecture 1,2 에서는 world, environment가 어떻게 구성되고 돌아가는지 알고 있는 가정에서 살펴보았다.흔히 model-based method라고 불리는데 이번 lecture에서는 world를 모르는 model-free에 대해서 알아본다. Policy evaluationEstimating the expected return of a particular policy if don't have access to true MDP models Monte Carlo policy evaluationPolicy evaluation when don't have a model of how the world workMonte Carlo (MC) Policy Evaluation만약 policy로부터 samp..
Markov Decision Process (MDP)Markov Reward Process + actions MDP is a tuple: \((S, A, P, R, \gamma)\)S: a set of Markov states \(s \in S\)A: a set of actions \(a \in A\)P: dynamics / transition model for each action \(P(s_{t+1}=s'|s_t=s,a_t=a)\)R: reward model \(R(s_t=s, a_t=a)=E[r_t|s_t=s, a_t=a]\)\(\gamma\): discount factor \(\gamma \in [0,1]\)Policy: \(\pi(a|s)=P(a_t=a|s_t=s)\) \((I-\gamma P)..
Reinforcement learning (RL)Learning through experience / data to make good decisions under uncertaintyEssential part of intelligenceBuilds strongly from theory and ideas starting in the 1950s with Richard BellmanA number of impressive successes in the last decadeExamples of RL출처: https://www.nature.com/articles/nature24270%20 출처: https://openai.com/blog/chatgpt/ 출처: https://arxiv.org/pdf/1709.06..
TransformerAttention + CMMSelf-attention: calculate attention parallelMulti-head attention: rich representationsSelf-attentionMulti-head attentionTransformer architecture
Sequence to sequence modeldecoder에서 막연히 전체 문장을 greedy decoding으로 생성하면 안될까라는 생각이 들 수 있다. 하지만 greedy decoding을 사용하면 전체 문맥을 고려하지않고 앞부분에서 생성된 출력만을 기준으로 찾게되어 부정확한 출력이 나올 수 있다. 또한 greedy search는 엄청나게 많은 search space를 소비한다.Beam search & Length normalizationBeam search 과정에서 text length가 길어질수록 text token 수가 많아져 error값이 커지고 모델은 적은 loss를 얻기 위해 짧은 text 를 출력하는것을 선호하게 된다. 이를 방지하기 위해 loss function에 length nor..
1-hot representation1-hot representation은 각 단어를 구분하기에는 좋지만 단어간의 유사성을 유지하기는 어렵다. Featured representation: word embedding각 차원마다 특징을 기준으로 학습하도록 할 수 있다면 더 풍부한 표현을 가진 word vector가 생길 것이다.word vector를 시각화한 3D 공간을 보면 비슷한 단어들끼리 뭉쳐있다. Transfer learning and word embeddingsLearn word embeddings from large text corpusTransfer embedding to new task with smaller training setOptional: Continue to finetune the..
NotationLet x is sequence, then \(x^{}\): data indexed with position in x\(x^{(r)}\): \(s^{th}\) word in the \(r^{th}\) training examples\(T_x\): length of sequence data xdictionary에 자주 언급되는 단어들을 모아놓고 dictionary 크기만큼의 one-hot vector로 mapping하여 단어를 표현한다. Sequence data를 standard network로 다루기 힘든 이유는 input, output이 데이터마다 다르기 때문이다. 가장 큰 표현을 벡터 크기로 고정하고 빈 공간은 padding하는 방법이 있지만 비효율적이다. 그리고 다른 문제점은 서로 다..
Face verification vs face recognitionVerificationInput image, name/IDOutput whether the input image is that if the claimed personRecognitionHas a database of K personsGet an input imageOutput ID if the image is any of the K persons (or "not recognized")Reconition이 verification보다 더 어려운 작업이다.One-shot learningLearning from one example to recognize the person again.One-shot learning은 similarity func..