chore: fix linting errors

portellaa · portellaa · commit 88035d8144d6 · 2025-03-18T18:53:09.000Z
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -1,4 +1,4 @@
-default_stages: [commit, push, manual]
+default_stages: [pre-commit, pre-push, manual]
 
 repos:
 -   repo: https://github.com/commitizen-tools/commitizen
diff --git a/src/ydata_profiling/model/correlations.py b/src/ydata_profiling/model/correlations.py
@@ -1,6 +1,6 @@
 """Correlations between variables."""
 import warnings
-from typing import Dict, List, Optional, Sized
+from typing import Dict, List, Optional, Sized, no_type_check
 
 import numpy as np
 import pandas as pd
@@ -16,20 +16,21 @@
 class CorrelationBackend:
     """Helper class to select and cache the appropriate correlation backend (Pandas or Spark)."""
 
+    @no_type_check
     def __init__(self, df: Sized):
         """Determine backend once and store it for all correlation computations."""
         if isinstance(df, pd.DataFrame):
             from ydata_profiling.model.pandas import (
-                correlations_pandas as correlation_backend, #type: ignore
+                correlations_pandas as correlation_backend,
             )
         else:
             from ydata_profiling.model.spark import (
-                correlations_spark as correlation_backend, # type: ignore
+                correlations_spark as correlation_backend,
             )
 
         self.backend = correlation_backend
 
-    def get_method(self, method_name: str):
+    def get_method(self, method_name: str):  # noqa: ANN201
         """Retrieve the appropriate correlation method class from the backend."""
         if hasattr(self.backend, method_name):
             return getattr(self.backend, method_name)
diff --git a/src/ydata_profiling/model/dataframe.py b/src/ydata_profiling/model/dataframe.py
@@ -12,8 +12,10 @@
     from pyspark.sql import DataFrame as sparkDataFrame  # type: ignore
     from ydata_profiling.model.spark.dataframe_spark import spark_preprocess
 
-from ydata_profiling.config import Settings
-from ydata_profiling.model.pandas.dataframe_pandas import pandas_preprocess
+from ydata_profiling.config import Settings  # noqa: E402
+from ydata_profiling.model.pandas.dataframe_pandas import (  # noqa: E402
+    pandas_preprocess,
+)
 
 
 def preprocess(config: Settings, df: Any) -> Any:
diff --git a/src/ydata_profiling/model/describe.py b/src/ydata_profiling/model/describe.py
@@ -1,6 +1,6 @@
 """Organize the calculation of statistics for each series in this DataFrame."""
 from datetime import datetime
-from typing import Any, Dict, Optional, Union
+from typing import Any, Dict, Optional, Union, no_type_check
 
 import pandas as pd
 from tqdm.auto import tqdm
@@ -27,9 +27,10 @@
 from ydata_profiling.version import __version__
 
 
+@no_type_check
 def describe(
     config: Settings,
-    df: Union[pd.DataFrame, "pyspark.sql.DataFrame"],  # type: ignore
+    df: Union[pd.DataFrame, "pyspark.sql.DataFrame"],  # noqa
     summarizer: BaseSummarizer,
     typeset: VisionsTypeset,
     sample: Optional[dict] = None,
diff --git a/src/ydata_profiling/model/handler.py b/src/ydata_profiling/model/handler.py
@@ -1,7 +1,7 @@
 """
     Auxiliary handler methods for data summary extraction
 """
-from typing import Any, Callable, Dict, List, Sequence
+from typing import Callable, Dict, List, Sequence
 
 import networkx as nx
 from visions import VisionsTypeset
@@ -15,7 +15,7 @@ def compose(functions: Sequence[Callable]) -> Callable:
     :return: combined function applying all functions in order.
     """
 
-    def composed_function(*args):
+    def composed_function(*args):  # noqa: ANN201
         result = args  # Start with the input arguments
         for func in functions:
             result = func(*result) if isinstance(result, tuple) else func(result)
diff --git a/src/ydata_profiling/model/pandas/dataframe_pandas.py b/src/ydata_profiling/model/pandas/dataframe_pandas.py
@@ -1,5 +1,3 @@
-import warnings
-
 import pandas as pd
 
 from ydata_profiling.config import Settings
diff --git a/src/ydata_profiling/model/pandas/summary_pandas.py b/src/ydata_profiling/model/pandas/summary_pandas.py
@@ -9,6 +9,7 @@
 from visions import VisionsTypeset
 
 from ydata_profiling.config import Settings
+from ydata_profiling.model.summarizer import BaseSummarizer
 from ydata_profiling.model.typeset import ProfilingTypeSet
 from ydata_profiling.utils.dataframe import sort_column_names
 
@@ -20,7 +21,7 @@ def _is_cast_type_defined(typeset: VisionsTypeset, series: str) -> bool:
 def pandas_describe_1d(
     config: Settings,
     series: pd.Series,
-    summarizer: "BaseSummarizer",  # type:ignore
+    summarizer: BaseSummarizer,
     typeset: VisionsTypeset,
 ) -> dict:
     """Describe a series (infer the variable type, then calculate type-specific values).
diff --git a/src/ydata_profiling/model/spark/__init__.py b/src/ydata_profiling/model/spark/__init__.py
@@ -29,7 +29,7 @@
             for name in dir(module)
             if not name.startswith("_")
         }
-    ) # type: ignore
+    )  # type: ignore
 
 # Explicitly list all available functions
 __all__ = [
diff --git a/src/ydata_profiling/model/spark/describe_counts_spark.py b/src/ydata_profiling/model/spark/describe_counts_spark.py
@@ -2,13 +2,15 @@
     Pyspark counts
 """
 from typing import Tuple
+
 import pandas as pd
+from pyspark.sql import DataFrame
+from pyspark.sql import functions as F
 
 from ydata_profiling.config import Settings
-
-from pyspark.sql import DataFrame, functions as F
 from ydata_profiling.model.summary_algorithms import describe_counts
 
+
 @describe_counts.register
 def describe_counts_spark(
     config: Settings, series: DataFrame, summary: dict
@@ -34,7 +36,9 @@ def describe_counts_spark(
     value_counts_index_sorted = value_counts.orderBy(F.asc(series.columns[0]))
 
     # Count missing values
-    n_missing = value_counts.filter(F.col(series.columns[0]).isNull()).select("count").first()
+    n_missing = (
+        value_counts.filter(F.col(series.columns[0]).isNull()).select("count").first()
+    )
     n_missing = n_missing["count"] if n_missing else 0
 
     # Convert top 200 values to Pandas for frequency table display
@@ -51,11 +55,9 @@ def describe_counts_spark(
 
     column = series.columns[0]
 
-
-    if series.dtypes[0][1] in ('int', 'float', 'bigint', 'double'):
+    if series.dtypes[0][1] in ("int", "float", "bigint", "double"):
         value_counts_no_nan = (
-            value_counts
-            .filter(F.col(column).isNotNull())  # Exclude NaNs
+            value_counts.filter(F.col(column).isNotNull())  # Exclude NaNs
             .filter(~F.isnan(F.col(column)))  # Remove implicit NaNs (if numeric column)
             .groupBy(column)  # Group by unique values
             .count()  # Count occurrences
@@ -64,8 +66,7 @@ def describe_counts_spark(
         )
     else:
         value_counts_no_nan = (
-            value_counts
-            .filter(F.col(column).isNotNull())  # Exclude NULLs
+            value_counts.filter(F.col(column).isNotNull())  # Exclude NULLs
             .groupBy(column)  # Group by unique timestamp values
             .count()  # Count occurrences
             .orderBy(F.desc("count"))  # Sort by most frequent timestamps
@@ -75,8 +76,12 @@ def describe_counts_spark(
     # Convert to Pandas Series, forcing proper structure
     if value_counts_no_nan.count() > 0:
         pdf = value_counts_no_nan.toPandas().set_index(column)["count"]
-        summary["value_counts_without_nan"] = pd.Series(pdf)  # Ensures it's always a Series
+        summary["value_counts_without_nan"] = pd.Series(
+            pdf
+        )  # Ensures it's always a Series
     else:
-        summary["value_counts_without_nan"] = pd.Series(dtype=int)  # Ensures an empty Series
+        summary["value_counts_without_nan"] = pd.Series(
+            dtype=int
+        )  # Ensures an empty Series
 
-    return config, series, summary
+    return config, series, summary
diff --git a/src/ydata_profiling/model/spark/duplicates_spark.py b/src/ydata_profiling/model/spark/duplicates_spark.py
@@ -6,6 +6,7 @@
 from ydata_profiling.config import Settings
 from ydata_profiling.model.duplicates import get_duplicates
 
+
 @get_duplicates.register
 def get_duplicates_spark(
     config: Settings, df: DataFrame, supported_columns: Sequence
diff --git a/src/ydata_profiling/model/spark/sample_spark.py b/src/ydata_profiling/model/spark/sample_spark.py
@@ -6,6 +6,7 @@
 from ydata_profiling.config import Settings
 from ydata_profiling.model.sample import Sample, get_sample
 
+
 @get_sample.register
 def get_sample_spark(config: Settings, df: DataFrame) -> List[Sample]:
     """Obtains a sample from head and tail of the DataFrame
diff --git a/src/ydata_profiling/model/spark/summary_spark.py b/src/ydata_profiling/model/spark/summary_spark.py
@@ -1,5 +1,4 @@
 """Compute statistical description of datasets."""
-import multiprocessing
 from typing import Tuple
 
 import numpy as np
diff --git a/src/ydata_profiling/model/spark/table_spark.py b/src/ydata_profiling/model/spark/table_spark.py
@@ -5,6 +5,7 @@
 from ydata_profiling.config import Settings
 from ydata_profiling.model.table import get_table_stats
 
+
 @get_table_stats.register
 def get_table_stats_spark(
     config: Settings, df: DataFrame, variable_stats: dict
diff --git a/src/ydata_profiling/model/summarizer.py b/src/ydata_profiling/model/summarizer.py
@@ -54,7 +54,7 @@ def summarize(
 class ProfilingSummarizer(BaseSummarizer):
     """A summarizer for Pandas DataFrames."""
 
-    def __init__(self, typeset: VisionsTypeset, use_spark=False):
+    def __init__(self, typeset: VisionsTypeset, use_spark: bool = False):
         self.use_spark = use_spark and is_pyspark_installed()
         self._summary_map = self._create_summary_map()
         super().__init__(self._summary_map, typeset)
diff --git a/src/ydata_profiling/model/summary.py b/src/ydata_profiling/model/summary.py
@@ -15,18 +15,19 @@
 
 spec = importlib.util.find_spec("pyspark")
 if spec is None:
-    from typing import TypeVar # noqa: E402
+    from typing import TypeVar  # noqa: E402
 
     sparkDataFrame = TypeVar("sparkDataFrame")  # type: ignore
     sparkSeries = TypeVar("sparkSeries")  # type: ignore
 else:
-    from pyspark.sql import DataFrame as sparkDataFrame  # noqa: E402
+    from pyspark.sql import DataFrame as sparkDataFrame  # type: ignore
 
-    from ydata_profiling.model.spark.summary_spark import ( # noqa: E402
+    from ydata_profiling.model.spark.summary_spark import (  # noqa: E402
         get_series_descriptions_spark,
         spark_describe_1d,
     )
 
+
 def describe_1d(
     config: Settings,
     series: Any,
@@ -44,7 +45,7 @@ def describe_1d(
     """
     if isinstance(series, pd.Series):
         return pandas_describe_1d(config, series, summarizer, typeset)
-    elif isinstance(series, sparkDataFrame): # type: ignore
+    elif isinstance(series, sparkDataFrame):  # type: ignore
         return spark_describe_1d(config, series, summarizer, typeset)
     else:
         raise TypeError(f"Unsupported series type: {type(series)}")
@@ -59,7 +60,7 @@ def get_series_descriptions(
 ) -> dict:
     if isinstance(df, pd.DataFrame):
         return pandas_get_series_descriptions(config, df, summarizer, typeset, pbar)
-    elif isinstance(df, sparkDataFrame): # type: ignore
+    elif isinstance(df, sparkDataFrame):  # type: ignore
         return get_series_descriptions_spark(config, df, summarizer, typeset, pbar)
     else:
         raise TypeError(f"Unsupported dataframe type: {type(df)}")
diff --git a/src/ydata_profiling/model/summary_algorithms.py b/src/ydata_profiling/model/summary_algorithms.py
@@ -101,6 +101,7 @@ def named_aggregate_summary(series: pd.Series, key: str) -> dict:
 
     return summary
 
+
 @multimethod
 def describe_counts(
     config: Settings, series: Any, summary: dict
diff --git a/src/ydata_profiling/model/table.py b/src/ydata_profiling/model/table.py
@@ -4,6 +4,7 @@
 
 from ydata_profiling.config import Settings
 
+
 @multimethod
 def get_table_stats(config: Settings, df: Any, variable_stats: dict) -> dict:
     raise NotImplementedError()
diff --git a/src/ydata_profiling/profile_report.py b/src/ydata_profiling/profile_report.py
@@ -190,7 +190,7 @@ def __validate_inputs(
                 )
 
             if (
-                df is not None and df.rdd.isEmpty() # type: ignore
+                df is not None and df.rdd.isEmpty()  # type: ignore
             ):  # df.isEmpty is only support by 3.3.0 pyspark version
                 raise ValueError(
                     "DataFrame is empty. Please" "provide a non-empty DataFrame."
@@ -259,11 +259,9 @@ def summarizer(self) -> BaseSummarizer:
         if self._summarizer is None:
             use_spark = False
             if self._df_type is not pd.DataFrame:
-                use_spark=True
+                use_spark = True
 
-            self._summarizer = ProfilingSummarizer(
-                self.typeset, use_spark=use_spark
-            )
+            self._summarizer = ProfilingSummarizer(self.typeset, use_spark=use_spark)
         return self._summarizer
 
     @property
diff --git a/tests/backends/spark_backend/test_correlations_spark.py b/tests/backends/spark_backend/test_correlations_spark.py
@@ -15,6 +15,7 @@
     spearman_compute as spark_spearman_compute,
 )
 
+
 @pytest.fixture
 def correlation_data_num(spark_session):
     correlation_testdata = pd.DataFrame(
@@ -79,6 +80,4 @@ def test_kendall_spark(correlation_data_cat):
     cfg = Settings()
 
     with pytest.raises(NotImplementedError):
-        kendall_compute(config=cfg,
-                        df=correlation_data_cat,
-                        summary={})
+        kendall_compute(config=cfg, df=correlation_data_cat, summary={})
diff --git a/tests/backends/spark_backend/test_descriptions_spark.py b/tests/backends/spark_backend/test_descriptions_spark.py
@@ -374,7 +374,7 @@ def test_describe_spark_df(
         describe_data[column] = [
             True if i else False for i in describe_data[column]  # noqa: SIM210
         ]
-    pdf= pd.DataFrame({column: describe_data[column]})# Convert to Pandas DataFrame
+    pdf = pd.DataFrame({column: describe_data[column]})  # Convert to Pandas DataFrame
     # Ensure NaNs are replaced with None (Spark does not support NaN in non-float columns)
     pdf = pdf.where(pd.notna(pdf), None)
     sdf = spark_session.createDataFrame(pdf)
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -1,11 +1,13 @@
 import shutil
 import sys
 from pathlib import Path
+
 import pytest
 
 try:
+    from pyspark import SparkConf, SparkContext
     from pyspark.sql import SparkSession
-    from pyspark import SparkContext, SparkConf
+
     has_spark = True
 except ImportError:
     has_spark = False
@@ -45,6 +47,7 @@ def test_output_dir(tmpdir_factory):
 def summarizer(typeset):
     return ProfilingSummarizer(typeset)
 
+
 @pytest.fixture(scope="function")
 def summarizer_spark(typeset):
     return ProfilingSummarizer(typeset, use_spark=True)
@@ -70,7 +73,7 @@ def pytest_runtest_setup(item):
         pytest.skip(f"cannot run on platform {plat}")
 
 
-@pytest.fixture(scope='session')
+@pytest.fixture(scope="session")
 def spark_context():
     """Fixture for SparkContext initialization.
 
@@ -94,7 +97,7 @@ def spark_context():
     sc.stop()
 
 
-@pytest.fixture(scope='session')
+@pytest.fixture(scope="session")
 def spark_session(spark_context):
     """Fixture for SparkSession initialization.
 
diff --git a/tests/issues/test_issue537.py b/tests/issues/test_issue537.py
@@ -86,7 +86,7 @@ def download_and_process_data():
             ("labels", "S16"),
         ]
 
-        dtype = np.dtype(dtype_mapping)
+        _ = np.dtype(dtype_mapping)
         split_text = np.array(split_text, dtype=object)
 
         # Convert each column to its appropriate type

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-default_stages: [commit, push, manual]`
	`1`	`+default_stages: [pre-commit, pre-push, manual]`
`2`	`2`
`3`	`3`	`repos:`
`4`	`4`	`- repo: https://github.com/commitizen-tools/commitizen`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,3 @@`
`1`		`-import warnings`
`2`		`-`
`3`	`1`	`import pandas as pd`
`4`	`2`
`5`	`3`	`from ydata_profiling.config import Settings`
Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@`
`29`	`29`	`for name in dir(module)`
`30`	`30`	`if not name.startswith("_")`
`31`	`31`	`}`
`32`		`- ) # type: ignore`
	`32`	`+ ) # type: ignore`
`33`	`33`
`34`	`34`	`# Explicitly list all available functions`
`35`	`35`	`__all__ = [`