From 1409206eab7b4ce487d0d0e79dac00d3126b2f11 Mon Sep 17 00:00:00 2001
From: Mo8it <mo8it@protonmail.com>
Date: Tue, 1 Feb 2022 03:09:27 +0100
Subject: [PATCH] Better title for only one episode in mean_kappa

---
 analysis/mean_kappa.jl           | 8 +++++++-
 src/RL/RL.jl                     | 4 ++--
 src/Visualization/RewardsPlot.jl | 2 +-
 3 files changed, 10 insertions(+), 4 deletions(-)

diff --git a/analysis/mean_kappa.jl b/analysis/mean_kappa.jl
index 08a6e6e..e0e11a1 100644
--- a/analysis/mean_kappa.jl
+++ b/analysis/mean_kappa.jl
@@ -65,12 +65,18 @@ function plot_mean_kappa(; rl_dir::String, n_last_episodes::Int64)
     init_cairomakie!()
     fig = gen_figure(; padding=9)
 
+    if n_last_episodes > 1
+        title = "Averaged over last $n_last_episodes episodes"
+    else
+        title = "Result of only one episode"
+    end
+
     ax = Axis(
         fig[1, 1];
         xlabel="Frame",
         ylabel=L"\kappa",
         limits=(1, total_n_snapshots, 0.0, 1.04),
-        title="Averaged over last $n_last_episodes episodes",
+        title=title,
     )
 
     lines!(ax, 1:total_n_snapshots, snapshot_κs; label=L"\kappa")
diff --git a/src/RL/RL.jl b/src/RL/RL.jl
index ad59da5..42ac61f 100644
--- a/src/RL/RL.jl
+++ b/src/RL/RL.jl
@@ -37,8 +37,8 @@ function gen_agent(
     n_states::Int64, n_actions::Int64, ϵ_stable::Float64, reward_discount::Float64
 )
     # TODO: Optimize warming up and decay
-    warmup_steps = 400_000
-    decay_steps = 5_000_000
+    warmup_steps = 200_000
+    decay_steps = 4_000_000
 
     policy = QBasedPolicy(;
         learner=MonteCarloLearner(;
diff --git a/src/Visualization/RewardsPlot.jl b/src/Visualization/RewardsPlot.jl
index 924bf35..c924f7d 100644
--- a/src/Visualization/RewardsPlot.jl
+++ b/src/Visualization/RewardsPlot.jl
@@ -15,7 +15,7 @@ function plot_rewards_from_env_helper(; env_helper::ReCo.RL.EnvHelper, rl_dir::S
 
     init_cairomakie!()
 
-    fig = gen_figure()
+    fig = gen_figure(; padding=10)
 
     ax = Axis(
         fig[1, 1]; xlabel="Episode", ylabel="Reward", limits=((0, n_episodes), nothing)