목록분류 전체보기 (115)
ROKO
코딩테스트를 준비하면서 입출력을 어떻게 빠르게 받을 수 있을까에 대한 고심을 자주하곤 한다.이번 기회에 제대로 정리하여 까먹지 않고 이유까지 잘 이해하고 가져가도록 하자. 입력표준 입출력 (stdin)을 사용하게 되면 버퍼에 입력을 임시 저장했다가 전달해주는 과정을 거치게 된다. python에서는 주로 input()을 기본으로 사용하는데 input보다 더 빠른 sys.stdin.readline()을 쓰는것이 좋다.이유는 input()은 추가적인 프롬프트를 받아 화면에 출력해주는 과정과 내부적으로 개행문자를 매 행마다 제거해주는 연산이 존재하는데 입력을 받는데 약간의 overhead 가 된다. 자세한 내용은 아래에 상세히 기술되어 있다.https://stackoverflow.com/questions/226..
복습 겸 DQN에 관련한 문제를 풀어보자. 위 문제의 정답은 1번과 2번이다. 1번의 경우 Monte carlo sampling에 의해 수렴할 것이 보장된다. 2번의 경우 무한히 많은 tuple이 있으므로 population과 같다고 볼 수 있어 estimated dynamics model을 통한 policy evaluation은 같은 결과를 나타낼 것이다. 3번의 경우 experience replay는 temporal correlation을 줄이기 위한 방법이지 convergence를 보장하기 위한 방법이 아니다. Policy GradientPolicy gradient methods have been very influentialSequence Level Training with Recurrent Ne..
1번 질문은 Deterministic이다. policy 식을 보면 arg max로 가장 큰 값을 가지는 선택지 하나를 선택하는 것이므로 deterministic하다. 2번 질문은 False이다. policy가 deterministic 이므로 모든 s,a에 대해서 값을 구할 수는 없다. 가장 좋은 값을 가지는 선택지 하나만 선택하여 임의의 action에 대해 exploration을 하지 않기 때문이다. 3 장에서는 a model of how the world works 에서 evaluation을 보았다면 이번 장은 control에 대해서 알아본다.2번 질문을 동기로 exploration을 하기 위한 방법론을 알아보자.General Policy Iteration (GPI)Policy Iteration과 Po..
Lecture 1,2 에서는 world, environment가 어떻게 구성되고 돌아가는지 알고 있는 가정에서 살펴보았다.흔히 model-based method라고 불리는데 이번 lecture에서는 world를 모르는 model-free에 대해서 알아본다. Policy evaluationEstimating the expected return of a particular policy if don't have access to true MDP models Monte Carlo policy evaluationPolicy evaluation when don't have a model of how the world workMonte Carlo (MC) Policy Evaluation만약 policy로부터 samp..
서버에서 분산 추론이나 분산 학습을 하는 중 모델이나 데이터 크기로 인해 OOM이 뜨는 경우가 있다. 혹은 코드의 문제로 process에 문제가 생기는 경우가 있는데 process 하나하나 pid를 찾아서 kill하거나 ctrl-c를 마구 누르는건 비효율 적이다. 다른 독립적인 python code가 돌아가는중이 아니라면 해당 명령어를 사용하자kill -9 pythonkill은 kernel에게 보내는 signal로 -9는 프로세스 강제종료를 의미한다. 따라서 모든 python 코드가 강제 종료된다.아래 그림의 9번째를 보면 SIGKILL을 확인 할 수 있다.
Markov Decision Process (MDP)Markov Reward Process + actions MDP is a tuple: \((S, A, P, R, \gamma)\)S: a set of Markov states \(s \in S\)A: a set of actions \(a \in A\)P: dynamics / transition model for each action \(P(s_{t+1}=s'|s_t=s,a_t=a)\)R: reward model \(R(s_t=s, a_t=a)=E[r_t|s_t=s, a_t=a]\)\(\gamma\): discount factor \(\gamma \in [0,1]\)Policy: \(\pi(a|s)=P(a_t=a|s_t=s)\) \((I-\gamma P)..
Reinforcement learning (RL)Learning through experience / data to make good decisions under uncertaintyEssential part of intelligenceBuilds strongly from theory and ideas starting in the 1950s with Richard BellmanA number of impressive successes in the last decadeExamples of RL출처: https://www.nature.com/articles/nature24270%20 출처: https://openai.com/blog/chatgpt/ 출처: https://arxiv.org/pdf/1709.06..
TransformerAttention + CMMSelf-attention: calculate attention parallelMulti-head attention: rich representationsSelf-attentionMulti-head attentionTransformer architecture
Sequence to sequence modeldecoder에서 막연히 전체 문장을 greedy decoding으로 생성하면 안될까라는 생각이 들 수 있다. 하지만 greedy decoding을 사용하면 전체 문맥을 고려하지않고 앞부분에서 생성된 출력만을 기준으로 찾게되어 부정확한 출력이 나올 수 있다. 또한 greedy search는 엄청나게 많은 search space를 소비한다.Beam search & Length normalizationBeam search 과정에서 text length가 길어질수록 text token 수가 많아져 error값이 커지고 모델은 적은 loss를 얻기 위해 짧은 text 를 출력하는것을 선호하게 된다. 이를 방지하기 위해 loss function에 length nor..
1-hot representation1-hot representation은 각 단어를 구분하기에는 좋지만 단어간의 유사성을 유지하기는 어렵다. Featured representation: word embedding각 차원마다 특징을 기준으로 학습하도록 할 수 있다면 더 풍부한 표현을 가진 word vector가 생길 것이다.word vector를 시각화한 3D 공간을 보면 비슷한 단어들끼리 뭉쳐있다. Transfer learning and word embeddingsLearn word embeddings from large text corpusTransfer embedding to new task with smaller training setOptional: Continue to finetune the..