Jihoon Kim

3.1: Norms

Jihoon Kim published on 2021-05-06 included in mml-book

“거리"라는 개념은 일상적으로도 자주 사용하는 단어이지만 거리의 개념에 대해 생각해보면 꽤 생각할 것들이 많아진다. 멀고 가깝다는 의미가 하나의 의미로 사용되지 않기 때문이다. 또한 거리는 것은 도착지에서 출발지 벡터의 차이로 정의되므로 거리와 벡터의 크기는 직접적으로 연관이 있다. 벡터의 크기를 정의하는 norm에 대해 알아보자.

Chapter 4: Dynamic Programming

Jihoon Kim published on 2021-04-29 included in RL Introduction

Dynamic programming(DP)는 MDP를 정확하게 알고 있을 때, 최적정책을 구하는 알고리즘들을 일컫는 말이다. MDP를 정확하게 알고 있다는 것은 환경에 대한 정보를 모두 알고 있다는 뜻으로 전이확률행렬(probability transition matrix)과 보상함수를 알고 있음을 의미한다. 물론 실제 강화학습 문제에서 이렇게 환경에 대한 정보를 완벽하게 알고 있는 것은 흔한 상황은 아니다. 전통적인 DP 알고리즘들은 이러한 이유로 사용에 제약이 있는 편이다. 그럼에도 불구하고 강화학습의 문제를 접근하는 중요한 이론적 토대를 제공하며 이후에 다루는 내용은 DP에서 접근하는 방식을 보다 적은 계산비용으로, 환경에 대한 정보가 완벽하지 않은 상황에서 접근하고 있다고도 할 수 있을 것이다.

2.8: Affine Spaces

Jihoon Kim published on 2021-04-29 included in mml-book

Affine 공간은 그 이름에서 느껴지는 막연한 어려움이 있지만 쉽게 생각하면 벡터공간에서 원점이 없는 개념으로 볼 수 있다. 벡터공간에서는 임의의 점을 잡아도 원점에서 해당 점을 잇는 벡터로 바라보고 벡터를 정의할 수 있지만 원점의 개념이 없는 affine 공간에서는 벡터가 정의되기 위해 최소한 두 개의 점이 주어져야 한다. 또한 벡터의 합이 표현되는 것도 벡터공간에서 생각해보면 원점기준으로 합이 표현되나 원점이 없는 affine 공간에서는 합이 정의되지 않는다. 이런 대략적인 그림을 그려보고 affine공간에 대해 자세히 알아보자.

Chapter 3: Finite Markov Decision Process

Jihoon Kim published on 2021-04-28 included in RL Introduction

이 문서에서는 finite Markov decision process(finite MDP)에 대해 다룬다. 어떤 문제를 풀기 위해서는 다루려는 문제를 어떻게 바라보고 접근할지를 정해야 한다. 강화학습을 공부할 때 MDP가 반드시 등장하게 되는 이유는 강화학습이 다루는 문제를 MDP로 접근하기가 용이하기 때문이다. MDP는 강화학습이 다루는 순차적 의사결정 문제를 잘 표현하는 것은 물론 지연보상과 같은 강화학습 문제의 특징도 잘 통합해 다룰 수 있는 토대를 제공한다. Bandit 문제에서처럼 evaluative feedback을 반영하는 상황과 다른 상황에서 다른 행동을 취해야 하는 associative문제 모두 MDP를 이용해 표현이 가능하다.

2.7: Linear Mappings

Jihoon Kim published on 2021-04-28 included in mml-book

벡터공간을 다루면서 벡터공간의 벡터들은 스칼라로 곱해지거나 벡터끼리 더해질 수 있으며 닫혀있는 성질로 인해 그 결과 역시 벡터로써 벡터공간에 속한다. 이번 포스팅에서는 선형변환(linear mapping) 에 대해서 다룬다. 당연하게도 변환은 정의하기 나름이며 다양한 형태의 변환을 만들 수 있다. 하지만 선형변환은 특별한 성질이 있다. 바로 이름에서 유추해볼 수 있듯, 선형성(linearity)이 성립한다.

2.6: Basis and Rank

Jihoon Kim published on 2021-04-27 included in mml-book

Basis는 벡터공간을 구성하는 기본적인 요소이며 rank 또한 행렬의 성질을 확인할 때 자주 사용하는 개념이다. 특히, 어떤 행렬이 full rank인지 아닌지에 따라서 선형시스템의 해나 행렬의 변환특성은 크게 달라진다. 여기서 basis와 rank에 대해 알아보자.

Chapter 2: Multi-armed Bandits

Jihoon Kim published on 2021-04-27 included in RL Introduction

강화학습 공부를 시작할 때 예제로 Multi-armed bandit 문제가 자주 사용된다. 이 문제는 슬롯머신에서 파생한 것으로, 상대방(여기서는 슬롯머신)이 어떻게 행동하는지에 대한 정보를 모르는 상태에서 최적의 전략을 선택해야 한다는 점에서 좋은 강화학습 예제가 된다.