Format .jl files (#91)

github-actions[bot] · web-flow · commit cf4352317ef4 · 2020-09-29T10:53:14.000+08:00
Co-authored-by: github-actions[bot] &lt;41898282+github-actions[bot]@users.noreply.github.com&gt;
diff --git a/src/algorithms/cfr/external_sampling_mccfr.jl b/src/algorithms/cfr/external_sampling_mccfr.jl
@@ -20,12 +20,13 @@ end
 
 (p::ExternalSamplingMCCFRPolicy)(env::AbstractEnv) = p.behavior_policy(env)
 
-RLBase.get_prob(p::ExternalSamplingMCCFRPolicy, env::AbstractEnv) = get_prob(p.behavior_policy, env)
+RLBase.get_prob(p::ExternalSamplingMCCFRPolicy, env::AbstractEnv) =
+    get_prob(p.behavior_policy, env)
 
 function ExternalSamplingMCCFRPolicy(;
     env::AbstractEnv,
     n_iter::Int,
-    rng=Random.GLOBAL_RNG,
+    rng = Random.GLOBAL_RNG,
 )
     @assert NumAgentStyle(env) isa MultiAgent
     @assert DynamicStyle(env) === SEQUENTIAL
@@ -90,4 +91,4 @@ function external_sampling(env, i, nodes, rng)
             u
         end
     end
-end
+end
diff --git a/src/algorithms/cfr/outcome_sampling_mccfr.jl b/src/algorithms/cfr/outcome_sampling_mccfr.jl
@@ -20,13 +20,14 @@ end
 
 (p::OutcomeSamplingMCCFRPolicy)(env::AbstractEnv) = p.behavior_policy(env)
 
-RLBase.get_prob(p::OutcomeSamplingMCCFRPolicy, env::AbstractEnv) = get_prob(p.behavior_policy, env)
+RLBase.get_prob(p::OutcomeSamplingMCCFRPolicy, env::AbstractEnv) =
+    get_prob(p.behavior_policy, env)
 
 function OutcomeSamplingMCCFRPolicy(;
     env::AbstractEnv,
     n_iter::Int,
-    rng=Random.GLOBAL_RNG,
-    ϵ=0.6
+    rng = Random.GLOBAL_RNG,
+    ϵ = 0.6,
 )
     @assert NumAgentStyle(env) isa MultiAgent
     @assert DynamicStyle(env) === SEQUENTIAL
@@ -91,9 +92,9 @@ function outcome_sampling(env, i, nodes, ϵ, πᵢ, π₋ᵢ, s, rng)
             w = u * π₋ᵢ
             rI .+= w * πₜₐᵢₗ .* ((1:n .== aᵢ) .- σ[aᵢ])
         else
-            sI .+= π₋ᵢ / s  .* σ
+            sI .+= π₋ᵢ / s .* σ
         end
 
         u, πₜₐᵢₗ * σ[aᵢ]
     end
-end
+end
diff --git a/src/algorithms/cfr/tabular_cfr.jl b/src/algorithms/cfr/tabular_cfr.jl
@@ -144,7 +144,8 @@ function cfr!(nodes, env, player, reach_probs, chance_player_reach_prob, ratio)
     end
 end
 
-regret_matching!(node::InfoStateNode) = regret_matching!(node.strategy, node.cumulative_regret)
+regret_matching!(node::InfoStateNode) =
+    regret_matching!(node.strategy, node.cumulative_regret)
 
 function regret_matching!(strategy, cumulative_regret)
     s = mapreduce(x -> max(0, x), +, cumulative_regret)
diff --git a/src/algorithms/dqns/iqn.jl b/src/algorithms/dqns/iqn.jl
@@ -223,7 +223,7 @@ function RLBase.update!(learner::IQNLearner, batch::NamedTuple)
         loss_per_quantile = reshape(sum(raw_loss; dims = 1), N, batch_size)
         loss_per_element = mean(loss_per_quantile; dims = 1)  # use as priorities
         loss =
-            is_use_PER ? dot(vec(weights), vec(loss_per_element)) * 1//batch_size :
+            is_use_PER ? dot(vec(weights), vec(loss_per_element)) * 1 // batch_size :
             mean(loss_per_element)
         ignore() do
             # @assert all(loss_per_element .>= 0)
diff --git a/src/algorithms/dqns/prioritized_dqn.jl b/src/algorithms/dqns/prioritized_dqn.jl
@@ -146,7 +146,7 @@ function RLBase.update!(learner::PrioritizedDQNLearner, batch::NamedTuple)
     gs = gradient(params(Q)) do
         q = Q(states)[actions]
         batch_losses = loss_func(G, q)
-        loss = dot(vec(weights), vec(batch_losses)) * 1//batch_size
+        loss = dot(vec(weights), vec(batch_losses)) * 1 // batch_size
         ignore() do
             updated_priorities .= send_to_host(vec((batch_losses .+ 1f-10) .^ β))
             learner.loss = loss
diff --git a/src/algorithms/dqns/rainbow.jl b/src/algorithms/dqns/rainbow.jl
@@ -185,7 +185,7 @@ function RLBase.update!(learner::RainbowLearner, batch::NamedTuple)
         select_logits = logits[:, actions]
         batch_losses = loss_func(select_logits, target_distribution)
         loss =
-            is_use_PER ? dot(vec(weights), vec(batch_losses)) * 1//batch_size :
+            is_use_PER ? dot(vec(weights), vec(batch_losses)) * 1 // batch_size :
             mean(batch_losses)
         ignore() do
             if is_use_PER
diff --git a/src/algorithms/policy_gradient/A2C.jl b/src/algorithms/policy_gradient/A2C.jl
@@ -83,7 +83,7 @@ function RLBase.update!(learner::A2CLearner, t::AbstractTrajectory)
         advantage = vec(gains) .- vec(values)
         actor_loss = -mean(log_probs_select .* Zygote.dropgrad(advantage))
         critic_loss = mean(advantage .^ 2)
-        entropy_loss = -sum(probs .* log_probs) * 1//size(probs, 2)
+        entropy_loss = -sum(probs .* log_probs) * 1 // size(probs, 2)
         loss = w₁ * actor_loss + w₂ * critic_loss - w₃ * entropy_loss
         ignore() do
             learner.actor_loss = actor_loss
diff --git a/src/algorithms/policy_gradient/A2CGAE.jl b/src/algorithms/policy_gradient/A2CGAE.jl
@@ -88,7 +88,7 @@ function RLBase.update!(learner::A2CGAELearner, t::AbstractTrajectory)
         advantage = vec(gains) .- vec(values)
         actor_loss = -mean(log_probs_select .* advantages)
         critic_loss = mean(advantage .^ 2)
-        entropy_loss = -sum(probs .* log_probs) * 1//size(probs, 2)
+        entropy_loss = -sum(probs .* log_probs) * 1 // size(probs, 2)
         loss = w₁ * actor_loss + w₂ * critic_loss - w₃ * entropy_loss
         ignore() do
             learner.actor_loss = actor_loss
diff --git a/src/algorithms/policy_gradient/policy_gradient.jl b/src/algorithms/policy_gradient/policy_gradient.jl
@@ -1,4 +1,4 @@
-include("vpg.jl") 
+include("vpg.jl")
 include("A2C.jl")
 include("ppo.jl")
 include("A2CGAE.jl")
diff --git a/src/algorithms/policy_gradient/ppo.jl b/src/algorithms/policy_gradient/ppo.jl
@@ -81,19 +81,21 @@ function PPOPolicy(;
     )
 end
 
-function RLBase.get_prob(p::PPOPolicy{<:ActorCritic{<:NeuralNetworkApproximator{<:GaussianNetwork}}, Normal}, state::AbstractArray)
-    p.approximator.actor(send_to_device(
-        device(p.approximator),
-        state,
-    )) |> send_to_host |> StructArray{Normal}
+function RLBase.get_prob(
+    p::PPOPolicy{<:ActorCritic{<:NeuralNetworkApproximator{<:GaussianNetwork}},Normal},
+    state::AbstractArray,
+)
+    p.approximator.actor(send_to_device(device(p.approximator), state)) |>
+    send_to_host |>
+    StructArray{Normal}
 end
 
-function RLBase.get_prob(p::PPOPolicy{<:ActorCritic, Categorical}, state::AbstractArray)
-    logits = p.approximator.actor(send_to_device(
-        device(p.approximator),
-        state,
-    )) |> softmax |> send_to_host
-    [Categorical(x;check_args=false) for x in eachcol(logits)]
+function RLBase.get_prob(p::PPOPolicy{<:ActorCritic,Categorical}, state::AbstractArray)
+    logits =
+        p.approximator.actor(send_to_device(device(p.approximator), state)) |>
+        softmax |>
+        send_to_host
+    [Categorical(x; check_args = false) for x in eachcol(logits)]
 end
 
 RLBase.get_prob(p::PPOPolicy, env::MultiThreadEnv) = get_prob(p, get_state(env))
@@ -164,14 +166,14 @@ function RLBase.update!(p::PPOPolicy, t::PPOTrajectory)
                 if AC.actor isa NeuralNetworkApproximator{<:GaussianNetwork}
                     μ, σ = AC.actor(s)
                     log_p′ₐ = normlogpdf(μ, σ, a)
-                    entropy_loss = mean((log(2.0f0π)+1)/2 .+ log.(σ))
+                    entropy_loss = mean((log(2.0f0π) + 1) / 2 .+ log.(σ))
                 else
                     # actor is assumed to return discrete logits
                     logit′ = AC.actor(s)
                     p′ = softmax(logit′)
                     log_p′ = logsoftmax(logit′)
                     log_p′ₐ = log_p′[CartesianIndex.(a, 1:length(a))]
-                    entropy_loss = -sum(p′ .* log_p′) * 1//size(p′, 2)
+                    entropy_loss = -sum(p′ .* log_p′) * 1 // size(p′, 2)
                 end
 
                 ratio = exp.(log_p′ₐ .- log_p)
@@ -198,15 +200,18 @@ function RLBase.update!(p::PPOPolicy, t::PPOTrajectory)
     end
 end
 
-function (agent::Agent{<:Union{PPOPolicy, RandomStartPolicy{<:PPOPolicy}}})(::Training{PreActStage}, env::MultiThreadEnv)
+function (agent::Agent{<:Union{PPOPolicy,RandomStartPolicy{<:PPOPolicy}}})(
+    ::Training{PreActStage},
+    env::MultiThreadEnv,
+)
     state = get_state(env)
     dist = get_prob(agent.policy, env)
 
     # currently RandomPolicy returns a Matrix instead of a (vector of) distribution.
     if dist isa Matrix{<:Number}
-        dist = [Categorical(x;check_args=false) for x in eachcol(dist)]
+        dist = [Categorical(x; check_args = false) for x in eachcol(dist)]
     elseif dist isa Vector{<:Vector{<:Number}}
-        dist = [Categorical(x;check_args=false) for x in dist]
+        dist = [Categorical(x; check_args = false) for x in dist]
     end
 
     # !!! a little ugly
diff --git a/src/experiments/atari.jl b/src/experiments/atari.jl
@@ -802,16 +802,14 @@ function RLCore.Experiment(
         DoEveryNStep(UPDATE_FREQ) do t, agent, env
             p = agent.policy.policy
             with_logger(lg) do
-                @info "training" loss = mean(p.loss) actor_loss =
-                    mean(p.actor_loss) critic_loss = mean(p.critic_loss) entropy_loss =
-                    mean(p.entropy_loss) norm = mean(p.norm) log_step_increment =
-                    UPDATE_FREQ
+                @info "training" loss = mean(p.loss) actor_loss = mean(p.actor_loss) critic_loss =
+                    mean(p.critic_loss) entropy_loss = mean(p.entropy_loss) norm =
+                    mean(p.norm) log_step_increment = UPDATE_FREQ
             end
         end,
         DoEveryNStep(UPDATE_FREQ) do t, agent, env
             decay = (N_TRAINING_STEPS - t) / N_TRAINING_STEPS
-            agent.policy.policy.approximator.optimizer.eta =
-                INIT_LEARNING_RATE * decay
+            agent.policy.policy.approximator.optimizer.eta = INIT_LEARNING_RATE * decay
             agent.policy.policy.clip_range = INIT_CLIP_RANGE * Float32(decay)
         end,
         DoEveryNStep() do t, agent, env
diff --git a/src/experiments/rl_envs.jl b/src/experiments/rl_envs.jl
@@ -1217,8 +1217,8 @@ function RLCore.Experiment(
     N_ENV = 8
     UPDATE_FREQ = 16
     env = MultiThreadEnv([
-        PendulumEnv(T = Float32, rng = MersenneTwister(hash(seed + i))) |> ActionTransformedEnv(x -> clamp(x*2, low, high))
-        for i in 1:N_ENV
+        PendulumEnv(T = Float32, rng = MersenneTwister(hash(seed + i))) |>
+        ActionTransformedEnv(x -> clamp(x * 2, low, high)) for i in 1:N_ENV
     ])
 
     init = glorot_uniform(rng)
@@ -1232,22 +1232,16 @@ function RLCore.Experiment(
                             Dense(ns, 64, relu; initW = glorot_uniform(rng)),
                             Dense(64, 64, relu; initW = glorot_uniform(rng)),
                         ),
-                        μ = Chain(
-                            Dense(64, 1, tanh; initW = glorot_uniform(rng)),
-                            vec,
-                        ),
-                        σ =Chain(
-                            Dense(64, 1; initW = glorot_uniform(rng)),
-                            vec,
-                        ),
+                        μ = Chain(Dense(64, 1, tanh; initW = glorot_uniform(rng)), vec),
+                        σ = Chain(Dense(64, 1; initW = glorot_uniform(rng)), vec),
                     ),
                     optimizer = ADAM(3e-4),
                 ),
                 critic = NeuralNetworkApproximator(
                     model = Chain(
                         Dense(ns, 64, relu; initW = glorot_uniform(rng)),
                         Dense(64, 64, relu; initW = glorot_uniform(rng)),
-                        Dense(64, 1; initW = glorot_uniform(rng))
+                        Dense(64, 1; initW = glorot_uniform(rng)),
                     ),
                     optimizer = ADAM(3e-4),
                 ),
@@ -1261,22 +1255,22 @@ function RLCore.Experiment(
             actor_loss_weight = 1.0f0,
             critic_loss_weight = 0.5f0,
             entropy_loss_weight = 0.00f0,
-            dist=Normal,
-            rng=rng,
+            dist = Normal,
+            rng = rng,
+        ),
+        trajectory = PPOTrajectory(;
+            capacity = 2048,
+            state_type = Float32,
+            state_size = (ns, N_ENV),
+            action_type = Float32,
+            action_size = (N_ENV,),
+            action_log_prob_type = Float32,
+            action_log_prob_size = (N_ENV,),
+            reward_type = Float32,
+            reward_size = (N_ENV,),
+            terminal_type = Bool,
+            terminal_size = (N_ENV,),
         ),
-    trajectory = PPOTrajectory(;
-        capacity = 2048,
-        state_type = Float32,
-        state_size = (ns, N_ENV),
-        action_type = Float32,
-        action_size = (N_ENV,),
-        action_log_prob_type = Float32,
-        action_log_prob_size = (N_ENV,),
-        reward_type = Float32,
-        reward_size = (N_ENV,),
-        terminal_type = Bool,
-        terminal_size = (N_ENV,),
-    ),
     )
 
     stop_condition = StopAfterStep(500_000)

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-include("vpg.jl")`
	`1`	`+include("vpg.jl")`
`2`	`2`	`include("A2C.jl")`
`3`	`3`	`include("ppo.jl")`
`4`	`4`	`include("A2CGAE.jl")`