Format .jl files (#153)

github-actions[bot] · norci · web-flow · commit c5fa62828dc3 · 2021-03-02T10:57:02.000+08:00
Co-authored-by: norci &lt;norci@users.noreply.github.com&gt;
diff --git a/src/algorithms/policy_gradient/multi_thread_env.jl b/src/algorithms/policy_gradient/multi_thread_env.jl
@@ -85,7 +85,7 @@ function (env::MultiThreadEnv)(actions)
     N = ndims(actions)
     @sync for i in 1:length(env)
         @spawn begin
-            if N == 1 
+            if N == 1
                 env[i](actions[i])
             else
                 env[i](selectdim(actions, N, i))
diff --git a/src/algorithms/policy_gradient/ppo.jl b/src/algorithms/policy_gradient/ppo.jl
@@ -184,11 +184,11 @@ function (agent::Agent{<:PPOPolicy})(env::MultiThreadEnv)
     dist = prob(agent.policy, env)
     action = rand.(agent.policy.rng, dist)
     if ndims(action) == 2
-        action_log_prob = sum(logpdf.(dist, action), dims=1)
+        action_log_prob = sum(logpdf.(dist, action), dims = 1)
     else
         action_log_prob = logpdf.(dist, action)
     end
-    EnrichedAction(action; action_log_prob=vec(action_log_prob))
+    EnrichedAction(action; action_log_prob = vec(action_log_prob))
 end
 
 function RLBase.update!(
@@ -267,11 +267,11 @@ function _update!(p::PPOPolicy, t::AbstractTrajectory)
                 if AC.actor isa GaussianNetwork
                     μ, σ = AC.actor(s)
                     if ndims(a) == 2
-                        log_p′ₐ = sum(normlogpdf(μ, σ, a), dims=1)
+                        log_p′ₐ = sum(normlogpdf(μ, σ, a), dims = 1)
                     else
                         log_p′ₐ = normlogpdf(μ, σ, a)
                     end
-                    entropy_loss = mean((log(2.0f0π) + 1) / 2 .+ sum(log.(σ), dims=1))
+                    entropy_loss = mean((log(2.0f0π) + 1) / 2 .+ sum(log.(σ), dims = 1))
                 else
                     # actor is assumed to return discrete logits
                     logit′ = AC.actor(s)
diff --git a/src/experiments/gridworlds/JuliaRL_BasicDQN_EmptyRoom.jl b/src/experiments/gridworlds/JuliaRL_BasicDQN_EmptyRoom.jl
@@ -17,7 +17,11 @@ function RLCore.Experiment(
     inner_env = GridWorlds.EmptyRoom(rng = rng)
     action_space_mapping = x -> Base.OneTo(length(RLBase.action_space(inner_env)))
     action_mapping = i -> RLBase.action_space(inner_env)[i]
-    env = RLEnvs.ActionTransformedEnv(inner_env, action_space_mapping = action_space_mapping, action_mapping = action_mapping)
+    env = RLEnvs.ActionTransformedEnv(
+        inner_env,
+        action_space_mapping = action_space_mapping,
+        action_mapping = action_mapping,
+    )
     env = RLEnvs.StateOverriddenEnv(env, x -> vec(Float32.(x)))
     env = RewardOverriddenEnv(env, x -> x - convert(typeof(x), 0.01))
     env = MaxTimeoutEnv(env, 240)