24. DQN a partir de píxeles#
24.1. Arcade Learning Environment#
La librería gymnasium se conecta con el Arcade Learning Environment (ALE) el cual tiene una colección de juegos de ATARI 2600 listos para utilizarle como benchmark de aprendizaje por refuerzo. La mayoría tiene una versión normal y una versión RAM:
En la versión normal las observaciones son imágenes de 260x120x3
En la versión RAM las observaciones son 128 bits que corresponden a la memoria de la consola
En este ejemplo nos concentraremos en la versión normal. Veamos por ejemplo el clásico juego Breakout
import gymnasium as gym
#env_name = "PongNoFrameskip-v4"
env_name ="BreakoutNoFrameskip-v4"
#env_name = "SpaceInvadersNoFrameskip-v4"
env = gym.make(env_name, render_mode="rgb_array")
state, _ = env.reset()
display("Las acciones de este ambiente:", env.unwrapped.get_action_meanings())
display("La dimensión del estado:", state.shape)
El estado es una imagen de 210 x 160 x 3 pixeles:
%matplotlib inline
from matplotlib import pyplot as plt
fig, ax = plt.subplots(figsize=(5, 3), tight_layout=True)
24.2. Entrenamiento con stable_baselines3
Para facilitar el entrenamiento se recomienda hacer un preprocesamiento como el que sigue:
Reescalar la imagen a un menor tamaño
Combinar los canales y generar una imagen de escala de grises
Crear un stack de cuatro frames como representación del estado
Convertir los pixeles a float y normalizar al rango [0, 1]
Adicionalmente es muy útil entrenar con más de un ambiente al mismo tiempo en paralelo.
Para esto usaremos los wrappers vectoriales de stable_baselines3
import numpy as np
import torch
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import VecFrameStack
env = VecFrameStack(make_atari_env(env_name, n_envs=4), n_stack=4)
state, _, _, _ = env.step([2, 2, 2, 2])
print(f"Tamaño del tensor transformado: {state.shape, state.dtype}")
fig, ax = plt.subplots(1, 4, figsize=(8, 2), tight_layout=True)
for k in range(4):
ax[k].matshow(state[k, :, :, 2], cmap=plt.cm.Greys_r);
Tamaño del tensor transformado: ((4, 84, 84, 4), dtype('uint8'))
Veamos un agente aleatorio desempeñándose en este ambiente:
import imageio
import IPython
images = []
obs = env.reset()
for k in range(100):
action = env.action_space.sample()
obs, rewards, end, info = env.step([action]*4)
img = env.render("rgb_array")
!rm random.gif
imageio.mimsave("random.gif", [np.array(img) for img in images], format='GIF', duration=1)
/home/phuijse/.conda/envs/RL/lib/python3.9/site-packages/gymnasium/utils/passive_env_checker.py:364: UserWarning: WARN: No render fps was declared in the environment (env.metadata['render_fps'] is None or not defined), rendering may occur at inconsistent fps.
Para entrenar el agente utilizaremos una red convolucional CnnPolicy
. Utilizaremos un buffer de tamaño 100.000 y durante las primeros 100.000 pasos no entrenamos, sólo llenamos el buffer.
Para llegar a un buen resultado en los ambientes de Atari con DQN se necesitan al menos 1.000.000 de pasos con la configuración que se muestra a continuación. Se recomienda utilizar una GPU para entrenar. En la práctica también es recomendable utilizar algoritmos más eficientes como A3C.
import torch
from stable_baselines3 import DQN
model = DQN("CnnPolicy", env, verbose=1, tensorboard_log="/tmp/tensorboard/dqn_atari/",
gamma=0.99, learning_rate=1e-4, batch_size=32, buffer_size=100_000,
target_update_interval=1_000, train_freq=4, gradient_steps=1,
exploration_fraction=0.1, exploration_final_eps=0.01,
Show code cell output
Las métricas del entrenamiento en este caso:
import pandas as pd
reward = pd.read_csv("metrics/rewards.csv")[['Step', 'Value']].values
epsilon = pd.read_csv("metrics/epsilon.csv")[['Step', 'Value']].values
loss = pd.read_csv("metrics/loss.csv")[['Step', 'Value']].values
fig, ax = plt.subplots(3, 1, figsize=(6, 5), tight_layout=True, sharex=True)
ax[0].plot(rewards[:, 0], rewards[:, 1])
ax[1].plot(epsilon[:, 0], epsilon[:, 1])
ax[2].plot(loss[:, 0], loss[:, 1])
El mejor modelo se puede guardar en respaldar en disco con:
El modelo guardado se puede cargar desde disco para evaluarse o también seguir entrenándose volviendo a ejecutar learn
import numpy as np
import imageio
import IPython
from stable_baselines3.common.env_util import make_atari_env
from stable_baselines3.common.vec_env import VecFrameStack
from stable_baselines3 import DQN
env = VecFrameStack(make_atari_env(env_name, n_envs=4), n_stack=4)
loaded_model = DQN.load("dqn_breakout")
images = []
obs = env.reset()
for k in range(100):
action, _state = loaded_model.predict(obs)
obs, rewards, end, info = env.step(action)
img = env.render("rgb_array")
!rm trained.gif
imageio.mimsave("trained.gif", [np.array(img) for img in images], format='GIF', duration=1)