Fix #118 (#119)

findmyway · web-flow · commit 7bc3013f5f29 · 2020-11-14T21:50:19.000+08:00
diff --git a/src/experiments/rl_envs.jl b/src/experiments/rl_envs.jl
@@ -1039,20 +1039,15 @@ function RLCore.Experiment(
     agent = Agent(
         policy = PPOPolicy(
             approximator = ActorCritic(
-                actor = NeuralNetworkApproximator(
-                    model = Chain(
-                        Dense(ns, 256, relu; initW = glorot_uniform(rng)),
-                        Dense(256, na; initW = glorot_uniform(rng)),
+                actor = Chain(
+                    Dense(ns, 256, relu; initW = glorot_uniform(rng)),
+                    Dense(256, na; initW = glorot_uniform(rng)),
                     ),
-                    optimizer = ADAM(1e-3),
-                ),
-                critic = NeuralNetworkApproximator(
-                    model = Chain(
-                        Dense(ns, 256, relu; initW = glorot_uniform(rng)),
-                        Dense(256, 1; initW = glorot_uniform(rng)),
+                critic = Chain(
+                    Dense(ns, 256, relu; initW = glorot_uniform(rng)),
+                    Dense(256, 1; initW = glorot_uniform(rng)),
                     ),
-                    optimizer = ADAM(1e-3),
-                ),
+                optimizer = ADAM(1e-3),
             ) |> cpu,
             γ = 0.99f0,
             λ = 0.95f0,
@@ -1325,25 +1320,20 @@ function RLCore.Experiment(
     agent = Agent(
         policy = PPOPolicy(
             approximator = ActorCritic(
-                actor = NeuralNetworkApproximator(
-                    model = GaussianNetwork(
-                        pre = Chain(
-                            Dense(ns, 64, relu; initW = glorot_uniform(rng)),
-                            Dense(64, 64, relu; initW = glorot_uniform(rng)),
-                        ),
-                        μ = Chain(Dense(64, 1, tanh; initW = glorot_uniform(rng)), vec),
-                        σ = Chain(Dense(64, 1; initW = glorot_uniform(rng)), vec),
-                    ),
-                    optimizer = ADAM(3e-4),
-                ),
-                critic = NeuralNetworkApproximator(
-                    model = Chain(
+                actor = GaussianNetwork(
+                    pre = Chain(
                         Dense(ns, 64, relu; initW = glorot_uniform(rng)),
                         Dense(64, 64, relu; initW = glorot_uniform(rng)),
-                        Dense(64, 1; initW = glorot_uniform(rng)),
                     ),
-                    optimizer = ADAM(3e-4),
-                ),
+                    μ = Chain(Dense(64, 1, tanh; initW = glorot_uniform(rng)), vec),
+                    σ = Chain(Dense(64, 1; initW = glorot_uniform(rng)), vec),
+                    ),
+                critic = Chain(
+                    Dense(ns, 64, relu; initW = glorot_uniform(rng)),
+                    Dense(64, 64, relu; initW = glorot_uniform(rng)),
+                    Dense(64, 1; initW = glorot_uniform(rng)),
+                    ),
+                optimizer = ADAM(3e-4),
             ) |> cpu,
             γ = 0.99f0,
             λ = 0.95f0,