목록전체 글 (117)
ROKO

https://github.com/tmux/tmux/wiki Hometmux source code. Contribute to tmux/tmux development by creating an account on GitHub.github.com 서버에서 코드를 작업하던 중 네트워크 문제로 서버와 연결이 끊기는 상황이 자주 발생하였다. 학습이라도 돌리고 있는 상황이라면 큰 문제가 발생할 수 있는데, 이럴땐 실행중인 프로세스를 백그라운드로 돌리면 된다. 이를 위해 사용할 수 있는 쉬운 수단이 tmux이다. 리눅스에서 그냥 프로세스 백그라운드로 돌리면 되지 왜 굳이 tmux를 써야하는가?대표적인 장점을 나열해보겠다.하나의 터미널을 분할하여 여러 터미널을 실행 할 수 있다.이는 모니터링이나 다양한 작업을 동시에..
본론부터 얘기하자면 사실이다. huggingface datasets 에서 데이터를 받아 구조를 살펴볼때 dict 자료구조처럼 구성이 되어있고 실제로도 dict 접근법이 적용가능하다. 최근 datasets의 데이터를 받아 데이터 증강을 해야하는 일이 있었다. 그런데 dict 자료구조 기준으로 코드를 구성할시 에러가 발생했다. Error codeKeyError: 'exact_answer''exact_answer'는 내가 추가하고자하는 값의 key 이름이였고 해당하는 값이 존재하지 않는다는 에러이다. why?huggingface datasets은 dict이 아닌 arrow 라는 특수한 구조를 가진다.https://huggingface.co/docs/datasets/en/about_arrow Datasets ?..

코딩테스트를 준비하면서 입출력을 어떻게 빠르게 받을 수 있을까에 대한 고심을 자주하곤 한다.이번 기회에 제대로 정리하여 까먹지 않고 이유까지 잘 이해하고 가져가도록 하자. 입력표준 입출력 (stdin)을 사용하게 되면 버퍼에 입력을 임시 저장했다가 전달해주는 과정을 거치게 된다. python에서는 주로 input()을 기본으로 사용하는데 input보다 더 빠른 sys.stdin.readline()을 쓰는것이 좋다.이유는 input()은 추가적인 프롬프트를 받아 화면에 출력해주는 과정과 내부적으로 개행문자를 매 행마다 제거해주는 연산이 존재하는데 입력을 받는데 약간의 overhead 가 된다. 자세한 내용은 아래에 상세히 기술되어 있다.https://stackoverflow.com/questions/226..

복습 겸 DQN에 관련한 문제를 풀어보자. 위 문제의 정답은 1번과 2번이다. 1번의 경우 Monte carlo sampling에 의해 수렴할 것이 보장된다. 2번의 경우 무한히 많은 tuple이 있으므로 population과 같다고 볼 수 있어 estimated dynamics model을 통한 policy evaluation은 같은 결과를 나타낼 것이다. 3번의 경우 experience replay는 temporal correlation을 줄이기 위한 방법이지 convergence를 보장하기 위한 방법이 아니다. Policy GradientPolicy gradient methods have been very influentialSequence Level Training with Recurrent Ne..

1번 질문은 Deterministic이다. policy 식을 보면 arg max로 가장 큰 값을 가지는 선택지 하나를 선택하는 것이므로 deterministic하다. 2번 질문은 False이다. policy가 deterministic 이므로 모든 s,a에 대해서 값을 구할 수는 없다. 가장 좋은 값을 가지는 선택지 하나만 선택하여 임의의 action에 대해 exploration을 하지 않기 때문이다. 3 장에서는 a model of how the world works 에서 evaluation을 보았다면 이번 장은 control에 대해서 알아본다.2번 질문을 동기로 exploration을 하기 위한 방법론을 알아보자.General Policy Iteration (GPI)Policy Iteration과 Po..

Lecture 1,2 에서는 world, environment가 어떻게 구성되고 돌아가는지 알고 있는 가정에서 살펴보았다.흔히 model-based method라고 불리는데 이번 lecture에서는 world를 모르는 model-free에 대해서 알아본다. Policy evaluationEstimating the expected return of a particular policy if don't have access to true MDP models Monte Carlo policy evaluationPolicy evaluation when don't have a model of how the world workMonte Carlo (MC) Policy Evaluation만약 policy로부터 samp..

서버에서 분산 추론이나 분산 학습을 하는 중 모델이나 데이터 크기로 인해 OOM이 뜨는 경우가 있다. 혹은 코드의 문제로 process에 문제가 생기는 경우가 있는데 process 하나하나 pid를 찾아서 kill하거나 ctrl-c를 마구 누르는건 비효율 적이다. 다른 독립적인 python code가 돌아가는중이 아니라면 해당 명령어를 사용하자kill -9 pythonkill은 kernel에게 보내는 signal로 -9는 프로세스 강제종료를 의미한다. 따라서 모든 python 코드가 강제 종료된다.아래 그림의 9번째를 보면 SIGKILL을 확인 할 수 있다.

Markov Decision Process (MDP)Markov Reward Process + actions MDP is a tuple: \((S, A, P, R, \gamma)\)S: a set of Markov states \(s \in S\)A: a set of actions \(a \in A\)P: dynamics / transition model for each action \(P(s_{t+1}=s'|s_t=s,a_t=a)\)R: reward model \(R(s_t=s, a_t=a)=E[r_t|s_t=s, a_t=a]\)\(\gamma\): discount factor \(\gamma \in [0,1]\)Policy: \(\pi(a|s)=P(a_t=a|s_t=s)\) \((I-\gamma P)..

Reinforcement learning (RL)Learning through experience / data to make good decisions under uncertaintyEssential part of intelligenceBuilds strongly from theory and ideas starting in the 1950s with Richard BellmanA number of impressive successes in the last decadeExamples of RL출처: https://www.nature.com/articles/nature24270%20 출처: https://openai.com/blog/chatgpt/ 출처: https://arxiv.org/pdf/1709.06..