I just don't know why this isn't working for cat data

pat-alt · pat-alt · commit 0057490d0a35 · 2022-12-21T13:13:30.000+01:00
diff --git a/docs/src/paper/data_preprocessing/_real_world_data.qmd b/docs/src/paper/data_preprocessing/_real_world_data.qmd
@@ -31,11 +31,6 @@ Loading the data into Julia session.
 
 ```{julia}
 df = CSV.read(joinpath(data_path, "raw/cal_housing.csv"), DataFrame)
-# # Features:
-# X = Matrix(df[:,Not(:target)])
-# dt = StatsBase.fit(ZScoreTransform, X, dims=1)
-# StatsBase.transform!(dt, X)
-# df = DataFrame(X,:auto)
 # Target:
 y = df.target
 y = Float64.(y .>= median(y)); # binary target (positive outcome)
@@ -55,10 +50,19 @@ All features are continuous:
 schema(df_balanced)
 ```
 
+Feature transformation:
+
+```{julia}
+transformer = Standardizer(count=true)
+mach = MLJBase.fit!(machine(transformer, df_balanced[:,Not(:target)]))
+X = MLJBase.transform(mach, df_balanced[:,Not(:target)])
+schema(X)
+```
+
 Turning the data into `CounterfactualData`:
 
 ```{julia}
-X = Matrix(df_balanced[:,Not(:target)])
+X = Matrix(X)
 X = permutedims(X)
 y = permutedims(df_balanced.target)
 data = CounterfactualData(X,y)
@@ -83,12 +87,6 @@ rename!(df, :SeriousDlqin2yrs => :target)
 mapcols!(x -> [ifelse(x_=="NA", missing, x_) for x_ in x], df)
 dropmissing!(df)
 mapcols!(x -> eltype(x) <: AbstractString ? parse.(Int, x) : x, df)
-# # Features:
-# X = Matrix(df[:,Not(:target)])
-# dt = StatsBase.fit(ZScoreTransform, X, dims=1)
-# StatsBase.transform!(dt, X)
-# df = DataFrame(X,:auto)
-# Target:
 df.target .= map(y -> y == 0 ? 1 : 0, df.target)        # postive outcome = no delinquency
 ```
 
@@ -104,10 +102,19 @@ All features are continuous:
 schema(df_balanced)
 ```
 
+Feature transformation:
+
+```{julia}
+transformer = Standardizer(count=true)
+mach = MLJBase.fit!(machine(transformer, df_balanced[:,Not(:target)]))
+X = MLJBase.transform(mach, df_balanced[:,Not(:target)])
+schema(X)
+```
+
 Turning the data into `CounterfactualData`:
 
 ```{julia}
-X = Matrix(df_balanced[:,Not(:target)])
+X = Matrix(X)
 X = permutedims(X)
 y = permutedims(df_balanced.target)
 data = CounterfactualData(X,y)
@@ -148,13 +155,13 @@ df_balanced = getobs(undersample(df, df.target;shuffle=true))[1]
 schema(df_balanced)
 ```
 
-One-hot encoding:
+Feature transformation:
 
 ```{julia}
-hot = OneHotEncoder()
-mach = MLJBase.fit!(machine(hot, df_balanced))
-df_balanced = MLJBase.transform(mach, df_balanced)
-schema(df_balanced)
+transformer = Standardizer(count=true) |> ContinuousEncoder()
+mach = MLJBase.fit!(machine(transformer, df_balanced[:,Not(:target)]))
+X = MLJBase.transform(mach, df_balanced[:,Not(:target)])
+schema(X)
 ```
 
 Categorical indices:
@@ -170,7 +177,7 @@ features_categorical = [
 Preparing for use with `CounterfactualExplanations.jl`:
 
 ```{julia}
-X = Matrix(df_balanced[:,Not(:target)])
+X = Matrix(X)
 X = permutedims(X)
 y = permutedims(df_balanced.target)
 data = CounterfactualData(
diff --git a/docs/src/paper/experiments/_real_world.qmd b/docs/src/paper/experiments/_real_world.qmd
@@ -29,7 +29,7 @@ function data_loader(data::CounterfactualData)
     data = Flux.DataLoader((X,y),batchsize=bs)
     return data
 end
-model_params = (batch_norm=false,n_hidden=64,n_layers=3,dropout=true,p_dropout=0.5)
+model_params = (batch_norm=false,n_hidden=64,n_layers=3,dropout=true,p_dropout=0.1)
 ```
 
 
diff --git a/docs/src/paper/setup.jl b/docs/src/paper/setup.jl
@@ -17,7 +17,7 @@ setup = quote
     using LaplaceRedux
     using Markdown
     using MLJBase
-    using MLJModels: OneHotEncoder
+    using MLJModels: ContinuousEncoder, OneHotEncoder, Standardizer
     using MLUtils
     using MLUtils: undersample
     using Plots
diff --git a/src/data/utils.jl b/src/data/utils.jl
@@ -1,21 +1,43 @@
 using CounterfactualExplanations.DataPreprocessing: CounterfactualData
+using DataFrames
 using Flux
 using StatsBase
 
+function Base.hcat(data::CounterfactualData, more_data::CounterfactualData)
+
+    data = deepcopy(data)
+    more_data = deepcopy(more_data)
+
+    @assert all(data.features_categorical .== more_data.features_categorical) "Datasets have different categorical indices."
+    @assert all(data.features_continuous .== more_data.features_continuous) "Datasets have different continous indices."
+
+    data.X = hcat(data.X, more_data.X)
+    data.y = hcat(data.y, more_data.y)
+
+    return data
+end
+
+function DataFrames.subset(data::CounterfactualData, idx::Vector{Int})
+    dsub = deepcopy(data)
+    dsub.X = dsub.X[:,idx]
+    dsub.y = dsub.y[:,idx]
+    return dsub
+end
+
 """
     train_test_split(data::CounterfactualData;test_size=0.2)
 
 Splits data into train and test split.
 """
 function train_test_split(data::CounterfactualData;test_size=0.2)
-    X,y = CounterfactualExplanations.DataPreprocessing.unpack(data)
+    X, y = CounterfactualExplanations.DataPreprocessing.unpack(data)
     N = size(y,2)
     classes_ = sort(unique(y))
     n_per_class = round(N/length(classes_))
     test_idx = sort(reduce(vcat,[sample(findall(vec(y.==cls)), Int(floor(test_size * n_per_class)),replace=false) for cls in classes_]))
     train_idx = setdiff(1:N, test_idx)
-    train_data = CounterfactualData(X[:,train_idx], y[:,train_idx])
-    test_data = CounterfactualData(X[:,test_idx], y[:,test_idx])
+    train_data = subset(data, train_idx)
+    test_data = subset(data, test_idx)
     return train_data, test_data
 end
 
diff --git a/src/experiments/functions.jl b/src/experiments/functions.jl
@@ -46,9 +46,7 @@ function Experiment(
     system_identifiers = Base.Iterators.product(keys(models), keys(generators))
 
     # Full data:
-    X_train, y_train = DataPreprocessing.unpack(train_data)
-    X_test, y_test = DataPreprocessing.unpack(train_data)
-    data = CounterfactualData(hcat(X_train, X_test), hcat(y_train, y_test))
+    data = hcat(train_data, test_data)
 
     # Initial scores:
     initial_model_scores = [(name, Models.model_evaluation(model, test_data)) for (name, model) in pairs(models)]
@@ -167,10 +165,8 @@ function update_experiment!(experiment::Experiment, recourse_system::RecourseSys
     )
 
     indices_ = rand(1:experiment.num_counterfactuals, length(results)) # randomly draw from generated counterfactuals
-
     X′ = reduce(hcat, @.(selectdim(counterfactual(results), 3, indices_)))
     y′ = reduce(hcat, @.(selectdim(counterfactual_label(results), 1, indices_)))
-    println(y′)
 
     X[:, chosen_individuals] = X′
     y[:, chosen_individuals] = y′
@@ -182,7 +178,12 @@ function update_experiment!(experiment::Experiment, recourse_system::RecourseSys
     end
 
     # Update data, classifier and benchmark:
-    recourse_system.data = CounterfactualData(X, y; generative_model=gen_mod)
+    recourse_system.data = CounterfactualData(
+        X, y; 
+        generative_model = gen_mod, 
+        features_categorical = counterfactual_data.features_categorical,
+        features_continuous = counterfactual_data.features_continuous,
+    )
     recourse_system.model = Models.train(M, counterfactual_data)
     recourse_system.benchmark = vcat(recourse_system.benchmark, CounterfactualExplanations.Benchmark.benchmark(results))