Data-Centric-AI-Community
diff --git a/‎src/ydata_profiling/model/pandas/correlations_pandas.py‎
Lines changed: 8 additions & 7 deletions b/‎src/ydata_profiling/model/pandas/correlations_pandas.py‎
Lines changed: 8 additions & 7 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_boolean_pandas.py‎
Lines changed: 5 additions & 9 deletions b/‎src/ydata_profiling/model/pandas/describe_boolean_pandas.py‎
Lines changed: 5 additions & 9 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_categorical_pandas.py‎
Lines changed: 4 additions & 4 deletions b/‎src/ydata_profiling/model/pandas/describe_categorical_pandas.py‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_counts_pandas.py‎
Lines changed: 5 additions & 4 deletions b/‎src/ydata_profiling/model/pandas/describe_counts_pandas.py‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_date_pandas.py‎
Lines changed: 3 additions & 2 deletions b/‎src/ydata_profiling/model/pandas/describe_date_pandas.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_file_pandas.py‎
Lines changed: 3 additions & 2 deletions b/‎src/ydata_profiling/model/pandas/describe_file_pandas.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_generic_pandas.py‎
Lines changed: 5 additions & 4 deletions b/‎src/ydata_profiling/model/pandas/describe_generic_pandas.py‎
Lines changed: 5 additions & 4 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_image_pandas.py‎
Lines changed: 3 additions & 2 deletions b/‎src/ydata_profiling/model/pandas/describe_image_pandas.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_numeric_pandas.py‎
Lines changed: 9 additions & 8 deletions b/‎src/ydata_profiling/model/pandas/describe_numeric_pandas.py‎
Lines changed: 9 additions & 8 deletions
diff --git a/‎src/ydata_profiling/model/pandas/describe_path_pandas.py‎
Lines changed: 6 additions & 4 deletions b/‎src/ydata_profiling/model/pandas/describe_path_pandas.py‎
Lines changed: 6 additions & 4 deletions
@@ -1,4 +1,5 @@
 """Correlations between variables."""
+
 import itertools
 import warnings
 from typing import Callable, Optional
@@ -20,6 +21,7 @@
     DiscretizationType,
     Discretizer,
 )
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 @Spearman.compute.register(Settings, pd.DataFrame, dict)
@@ -84,9 +86,9 @@ def _pairwise_cramers(col_1: pd.Series, col_2: pd.Series) -> float:
     return _cramers_corrected_stat(pd.crosstab(col_1, col_2), correction=True)
 
 
-@Cramers.compute.register(Settings, pd.DataFrame, dict)
+@Cramers.compute.register(Settings, pd.DataFrame, dict[str, VarDescription])
 def pandas_cramers_compute(
-    config: Settings, df: pd.DataFrame, summary: dict
+    config: Settings, df: pd.DataFrame, summary: dict[str, VarDescription]
 ) -> Optional[pd.DataFrame]:
     threshold = config.categorical_maximum_correlation_distinct
 
@@ -125,9 +127,9 @@ def pandas_cramers_compute(
     return correlation_matrix
 
 
-@PhiK.compute.register(Settings, pd.DataFrame, dict)
+@PhiK.compute.register(Settings, pd.DataFrame, dict[str, VarDescription])
 def pandas_phik_compute(
-    config: Settings, df: pd.DataFrame, summary: dict
+    config: Settings, df: pd.DataFrame, summary: dict[str, VarDescription]
 ) -> Optional[pd.DataFrame]:
     df_cols_dict = {i: list(df.columns).index(i) for i in df.columns}
 
@@ -161,9 +163,9 @@ def pandas_phik_compute(
     return correlation
 
 
-@Auto.compute.register(Settings, pd.DataFrame, dict)
+@Auto.compute.register(Settings, pd.DataFrame, dict[str, VarDescription])
 def pandas_auto_compute(
-    config: Settings, df: pd.DataFrame, summary: dict
+    config: Settings, df: pd.DataFrame, summary: dict[str, VarDescription]
 ) -> Optional[pd.DataFrame]:
     threshold = config.categorical_maximum_correlation_distinct
     numerical_columns = [
@@ -192,7 +194,6 @@ def pandas_auto_compute(
         columns=columns_tested,
     )
     for col_1_name, col_2_name in itertools.combinations(columns_tested, 2):
-
         method = (
             _pairwise_spearman
             if col_1_name and col_2_name not in categorical_columns
 
@@ -4,17 +4,14 @@
 
 from ydata_profiling.config import Settings
 from ydata_profiling.model.pandas.imbalance_pandas import column_imbalance_score
-from ydata_profiling.model.summary_algorithms import (
-    describe_boolean_1d,
-    series_hashable,
-)
+from ydata_profiling.model.summary_algorithms import describe_boolean_1d
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 @describe_boolean_1d.register
-@series_hashable
 def pandas_describe_boolean_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Describe a boolean series.
 
     Args:
@@ -25,8 +22,7 @@ def pandas_describe_boolean_1d(
     Returns:
         A dict containing calculated series description values.
     """
-
-    value_counts = summary["value_counts_without_nan"]
+    value_counts = summary.value_counts_without_nan
     summary.update({"top": value_counts.index[0], "freq": value_counts.iloc[0]})
 
     summary["imbalance"] = column_imbalance_score(value_counts, len(value_counts))
 
@@ -16,6 +16,7 @@
     series_handle_nulls,
     series_hashable,
 )
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 def get_character_counts_vc(vc: pd.Series) -> pd.Series:
@@ -210,8 +211,8 @@ def length_summary_vc(vc: pd.Series) -> dict:
 @series_hashable
 @series_handle_nulls
 def pandas_describe_categorical_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Describe a categorical series.
 
     Args:
@@ -222,12 +223,11 @@ def pandas_describe_categorical_1d(
     Returns:
         A dict containing calculated series description values.
     """
-
     # Make sure we deal with strings (Issue #100)
     series = series.astype(str)
 
     # Only run if at least 1 non-missing value
-    value_counts = summary["value_counts_without_nan"]
+    value_counts = summary.value_counts_without_nan
     value_counts.index = value_counts.index.astype(str)
 
     summary["imbalance"] = column_imbalance_score(value_counts, len(value_counts))
 
@@ -4,12 +4,13 @@
 
 from ydata_profiling.config import Settings
 from ydata_profiling.model.summary_algorithms import describe_counts
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 @describe_counts.register
 def pandas_describe_counts(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Counts the values in a series (with and without NaN, distinct).
 
     Args:
@@ -27,7 +28,7 @@ def pandas_describe_counts(
     except:  # noqa: E722
         hashable = False
 
-    summary["hashable"] = hashable
+    summary.hashable = hashable
 
     if hashable:
         value_counts_with_nan = value_counts_with_nan[value_counts_with_nan > 0]
@@ -58,6 +59,6 @@ def pandas_describe_counts(
         ordering = False
 
     summary["ordering"] = ordering
-    summary["n_missing"] = n_missing
+    summary.n_missing = n_missing
 
     return config, series, summary
@@ -11,14 +11,15 @@
     series_handle_nulls,
     series_hashable,
 )
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 @describe_date_1d.register
 @series_hashable
 @series_handle_nulls
 def pandas_describe_date_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Describe a date series.
 
     Args:
 
@@ -6,6 +6,7 @@
 
 from ydata_profiling.config import Settings
 from ydata_profiling.model.summary_algorithms import describe_file_1d, histogram_compute
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 def file_summary(series: pd.Series) -> dict:
@@ -36,8 +37,8 @@ def convert_datetime(x: float) -> str:
 
 @describe_file_1d.register
 def pandas_describe_file_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     if series.hasnans:
         raise ValueError("May not contain NaNs")
     if not hasattr(series, "str"):
 
@@ -4,12 +4,13 @@
 
 from ydata_profiling.config import Settings
 from ydata_profiling.model.summary_algorithms import describe_generic
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 @describe_generic.register
 def pandas_describe_generic(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Describe generic series.
 
     Args:
@@ -27,8 +28,8 @@ def pandas_describe_generic(
     summary.update(
         {
             "n": length,
-            "p_missing": summary["n_missing"] / length if length > 0 else 0,
-            "count": length - summary["n_missing"],
+            "p_missing": summary.n_missing / length if length > 0 else 0,
+            "count": length - summary.n_missing,
             "memory_size": series.memory_usage(deep=config.memory_deep),
         }
     )
 
@@ -12,6 +12,7 @@
     describe_image_1d,
     named_aggregate_summary,
 )
+from ydata_profiling.model.var_description.default import VarDescription
 from ydata_profiling.utils.imghdr_patch import *  # noqa: F401,F403
 
 
@@ -243,8 +244,8 @@ def image_summary(series: pd.Series, exif: bool = False, hash: bool = False) ->
 
 @describe_image_1d.register
 def pandas_describe_image_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     if series.hasnans:
         raise ValueError("May not contain NaNs")
     if not hasattr(series, "str"):
 
@@ -3,6 +3,7 @@
 import numpy as np
 import pandas as pd
 
+from ydata_profiling.model.var_description.default import VarDescription
 from ydata_profiling.utils.compat import pandas_version_info
 
 if pandas_version_info() >= (1, 5):
@@ -44,9 +45,9 @@ def numeric_stats_pandas(series: pd.Series) -> Dict[str, Any]:
 
 
 def numeric_stats_numpy(
-    present_values: np.ndarray, series: pd.Series, series_description: Dict[str, Any]
+    present_values: np.ndarray, series: pd.Series, series_description: VarDescription
 ) -> Dict[str, Any]:
-    vc = series_description["value_counts_without_nan"]
+    vc = series_description.value_counts_without_nan
     index_values = vc.index.values
 
     # FIXME: can be performance optimized by using weights in std, var, kurt and skew...
@@ -80,8 +81,8 @@ def numeric_stats_numpy(
 @series_hashable
 @series_handle_nulls
 def pandas_describe_numeric_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Describe a numeric series.
 
     Args:
@@ -96,11 +97,11 @@ def pandas_describe_numeric_1d(
     chi_squared_threshold = config.vars.num.chi_squared_threshold
     quantiles = config.vars.num.quantiles
 
-    value_counts = summary["value_counts_without_nan"]
+    value_counts = summary.value_counts_without_nan
 
     negative_index = value_counts.index < 0
     summary["n_negative"] = value_counts.loc[negative_index].sum()
-    summary["p_negative"] = summary["n_negative"] / summary["n"]
+    summary["p_negative"] = summary["n_negative"] / summary.n
 
     infinity_values = [np.inf, -np.inf]
     infinity_index = value_counts.index.isin(infinity_values)
@@ -139,8 +140,8 @@ def pandas_describe_numeric_1d(
     )
     stats["iqr"] = stats["75%"] - stats["25%"]
     stats["cv"] = stats["std"] / stats["mean"] if stats["mean"] else np.NaN
-    stats["p_zeros"] = stats["n_zeros"] / summary["n"]
-    stats["p_infinite"] = summary["n_infinite"] / summary["n"]
+    stats["p_zeros"] = stats["n_zeros"] / summary.n
+    stats["p_infinite"] = summary["n_infinite"] / summary.n
 
     stats["monotonic_increase"] = series.is_monotonic_increasing
     stats["monotonic_decrease"] = series.is_monotonic_decreasing
 
@@ -5,6 +5,7 @@
 
 from ydata_profiling.config import Settings
 from ydata_profiling.model.summary_algorithms import describe_path_1d
+from ydata_profiling.model.var_description.default import VarDescription
 
 
 def path_summary(series: pd.Series) -> dict:
@@ -19,8 +20,9 @@ def path_summary(series: pd.Series) -> dict:
 
     # TODO: optimize using value counts
     summary = {
-        "common_prefix": os.path.commonprefix(series.values.tolist())
-        or "No common prefix",
+        "common_prefix": (
+            os.path.commonprefix(series.values.tolist()) or "No common prefix"
+        ),
         "stem_counts": series.map(lambda x: os.path.splitext(x)[0]).value_counts(),
         "suffix_counts": series.map(lambda x: os.path.splitext(x)[1]).value_counts(),
         "name_counts": series.map(lambda x: os.path.basename(x)).value_counts(),
@@ -39,8 +41,8 @@ def path_summary(series: pd.Series) -> dict:
 
 @describe_path_1d.register
 def pandas_describe_path_1d(
-    config: Settings, series: pd.Series, summary: dict
-) -> Tuple[Settings, pd.Series, dict]:
+    config: Settings, series: pd.Series, summary: VarDescription
+) -> Tuple[Settings, pd.Series, VarDescription]:
     """Describe a path series.
 
     Args: