ayanasamuel8
diff --git a/‎notebooks/task_1/01_Data_understanding.ipynb‎
Lines changed: 499 additions & 0 deletions b/‎notebooks/task_1/01_Data_understanding.ipynb‎
Lines changed: 499 additions & 0 deletions
diff --git a/‎notebooks/task_1/02_eda_univariate.ipynb‎
Lines changed: 1766 additions & 0 deletions b/‎notebooks/task_1/02_eda_univariate.ipynb‎
Lines changed: 1766 additions & 0 deletions
diff --git a/‎notebooks/task_1/03_eda_bivariate.ipynb‎
Lines changed: 930 additions & 0 deletions b/‎notebooks/task_1/03_eda_bivariate.ipynb‎
Lines changed: 930 additions & 0 deletions
diff --git a/‎notebooks/task_1/04_visualizations.ipynb‎
Lines changed: 320 additions & 0 deletions b/‎notebooks/task_1/04_visualizations.ipynb‎
Lines changed: 320 additions & 0 deletions
diff --git a/‎src/config.py‎
Lines changed: 6 additions & 0 deletions b/‎src/config.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/data_loader.py‎
Lines changed: 19 additions & 0 deletions b/‎src/data_loader.py‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎src/preprocessing.py‎
Lines changed: 10 additions & 0 deletions b/‎src/preprocessing.py‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎src/task_1/__init__.py‎ b/‎src/task_1/__init__.py‎
diff --git a/‎src/task_1/eda/__init__.py‎ b/‎src/task_1/eda/__init__.py‎
diff --git a/‎src/task_1/eda/bivariate.py‎
Lines changed: 35 additions & 0 deletions b/‎src/task_1/eda/bivariate.py‎
Lines changed: 35 additions & 0 deletions
@@ -0,0 +1,6 @@
+import os
+
+# Paths
+RAW_DATA_PATH = "../../data/raw/raw_data.csv"
+CLEANED_DATA_PATH = '../data/cleaned'
+PROCESSED_DATA_PATH = '../data/processed'
@@ -1,10 +1,29 @@
 import pandas as pd
 
 def load_data(path: str) -> pd.DataFrame:
+    return pd.read_csv(path, sep='|',
+    skipinitialspace=False,
+    engine='python',
+    skiprows=0 
+    )
+def load_raw_data(path: str) -> pd.DataFrame:
     return pd.read_csv(path)
 
 def check_structure(df: pd.DataFrame):
     return df.info(), df.dtypes
 
+def save_raw_data(df: pd.DataFrame):
+    df.to_csv('../../data/raw/raw_data.csv', index=False)
+
 def check_missing(df: pd.DataFrame):
     return df.isnull().sum()
+
+def extract_numeric_cols(df: pd.DataFrame):
+    return df.select_dtypes(include=['int64', 'float64']).columns.tolist()
+
+def extract_categorical_cols(df: pd.DataFrame):
+    return df.select_dtypes(include=['object', 'category']).columns.tolist()
+
+def extract_date_time_cols(df: pd.DataFrame):
+    return df.select_dtypes(include=['datetime64[ns]', 'datetime64']).columns.tolist()
+
@@ -0,0 +1,10 @@
+import pandas as pd
+def clean_numeric_strings(df: pd.DataFrame, cols: list):
+    """
+    Convert string-formatted numbers with commas to proper floats.
+    """
+    for col in cols:
+        if df[col].dtype == 'object':
+            df[col] = df[col].str.replace(',', '', regex=False)  # Remove thousands separator
+            df[col] = pd.to_numeric(df[col], errors='coerce')    # Convert to float
+    return df
@@ -0,0 +1,35 @@
+import pandas as pd
+import seaborn as sns
+import matplotlib.pyplot as plt
+
+def correlation_matrix(df):
+    corr = df.corr(numeric_only=True)
+    plt.figure(figsize=(10, 8))
+    sns.heatmap(corr, annot=True, cmap="coolwarm")
+    plt.title("Correlation Matrix")
+    plt.show()
+    return corr
+
+
+def scatter_plot(df, x, y):
+    plt.figure(figsize=(8, 5))
+    sns.scatterplot(data=df, x=x, y=y)
+    plt.title(f"{y} vs {x}")
+    plt.show()
+
+
+def group_loss_ratio(df, by):
+    return df.groupby(by).agg(
+        TotalClaims=("TotalClaims", "sum"),
+        TotalPremium=("TotalPremium", "sum")
+    ).assign(LossRatio=lambda x: x.TotalClaims / x.TotalPremium.replace(0, pd.NA))
+
+
+def line_plot(df, date_col, value_col):
+    df_sorted = df.sort_values(by=date_col)
+    plt.figure(figsize=(10, 5))
+    sns.lineplot(x=df_sorted[date_col], y=df_sorted[value_col])
+    plt.title(f"Trend of {value_col} over time")
+    plt.xticks(rotation=45)
+    plt.show()
+