re-data
diff --git a/‎dbt_project.yml‎
Lines changed: 28 additions & 22 deletions b/‎dbt_project.yml‎
Lines changed: 28 additions & 22 deletions
diff --git a/‎integration_tests/dbt_project.yml‎
Lines changed: 29 additions & 24 deletions b/‎integration_tests/dbt_project.yml‎
Lines changed: 29 additions & 24 deletions
diff --git a/‎integration_tests/models/monitoring/expected_test_history.csv‎
Lines changed: 0 additions & 8 deletions b/‎integration_tests/models/monitoring/expected_test_history.csv‎
Lines changed: 0 additions & 8 deletions
diff --git a/‎integration_tests/models/monitoring/schema.yml‎
Lines changed: 6 additions & 1 deletion b/‎integration_tests/models/monitoring/schema.yml‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎integration_tests/models/monitoring/test_re_data_table_samples.sql‎
Lines changed: 9 additions & 0 deletions b/‎integration_tests/models/monitoring/test_re_data_table_samples.sql‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎integration_tests/models/transformed/buy_events.sql‎
Lines changed: 7 additions & 2 deletions b/‎integration_tests/models/transformed/buy_events.sql‎
Lines changed: 7 additions & 2 deletions
diff --git a/‎integration_tests/python_tests/test_monitoring.py‎
Lines changed: 2 additions & 2 deletions b/‎integration_tests/python_tests/test_monitoring.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎integration_tests/seeds/monitoring/expected_table_samples.csv‎
Lines changed: 5 additions & 0 deletions b/‎integration_tests/seeds/monitoring/expected_table_samples.csv‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎integration_tests/seeds/monitoring/expected_test_history.csv‎
Lines changed: 16 additions & 14 deletions b/‎integration_tests/seeds/monitoring/expected_test_history.csv‎
Lines changed: 16 additions & 14 deletions
diff --git a/‎macros/config/get_model_config.sql‎
Lines changed: 41 additions & 0 deletions b/‎macros/config/get_model_config.sql‎
Lines changed: 41 additions & 0 deletions
@@ -29,28 +29,34 @@ vars:
 
   re_data:store_table_samples: false
 
-  re_data:metrics_base:
-    table:
-      - row_count
-      - freshness
-
-    column:
-      numeric:
-        - min
-        - max
-        - avg
-        - stddev
-        - variance
-        - nulls_count
-        - nulls_percent
-      text:
-        - min_length
-        - max_length
-        - avg_length
-        - nulls_count
-        - missing_count
-        - nulls_percent
-        - missing_percent
+  re_data:metrics_groups:
+    table_metrics:
+      table:
+        - row_count
+        - freshness
+
+    column_metrics:
+      column:
+        numeric:
+          - min
+          - max
+          - avg
+          - stddev
+          - variance
+          - nulls_count
+          - nulls_percent
+        text:
+          - min_length
+          - max_length
+          - avg_length
+          - nulls_count
+          - missing_count
+          - nulls_percent
+          - missing_percent
+
+  re_data:default_metrics:
+    - table_metrics
+    - column_metrics
 
 models:
   re_data:
 
@@ -18,43 +18,48 @@ sources:
     +re_data_time_filter: null
 
 vars:
+  re_data:store_table_samples: true
   re_data:anomaly_detector:
     name: modified_z_score
     threshold: 0.6
   re_data:max_columns_in_query: 1
 
   re_data:select:
-    - buy_events
+    - tag:testtag
     - sample_table
     - sample_without_time_filter
     - sample_with_anomaly
     - re_data_source_test_table
 
-  re_data:metrics_base:
-    table:
-      - row_count
-      - freshness
-      - my_distinct_table_rows
+  re_data:metrics_groups:
+    integration_test_group:
+      table:
+        - row_count
+        - freshness
+        - my_distinct_table_rows
 
-    column:
-      numeric:
-        - min
-        - max
-        - avg
-        - stddev
-        - variance
-        - nulls_count
-        - nulls_percent
-        - diff # my own custom metric
+      column:
+        numeric:
+          - min
+          - max
+          - avg
+          - stddev
+          - variance
+          - nulls_count
+          - nulls_percent
+          - diff # my own custom metric
 
-      text:
-        - min_length
-        - max_length
-        - avg_length
-        - nulls_count
-        - nulls_percent
-        - missing_percent
-        - missing_count
+        text:
+          - min_length
+          - max_length
+          - avg_length
+          - nulls_count
+          - nulls_percent
+          - missing_percent
+          - missing_count
+  
+  re_data:default_metrics:
+    - integration_test_group
 
 seeds:
   +schema: seeds
 
@@ -19,4 +19,9 @@ models:
   - name: test_re_data_test_history
     tests:
      - dbt_utils.equality:
-         compare_model: ref('expected_test_history')
+         compare_model: ref('expected_test_history')
+
+  - name: test_re_data_table_samples
+    tests:
+     - dbt_utils.equality:
+         compare_model: ref('expected_table_samples')
@@ -0,0 +1,9 @@
+
+select 
+    {{ clean_table_name('table_name') }} as table_name,
+    length(sample_data) as sample_data_length
+from {{ ref('re_data_table_samples') }}
+where {{ clean_table_name('table_name') }} != 'SAMPLE_WITHOUT_TIME_FILTER'
+
+-- SAMPLE_WITHOUT_TIME_FILTER because this table doesn't have a time filter, it's not possible to say how
+-- exactly the sampel of it should look like.
@@ -1,6 +1,11 @@
 {{
-    config(re_data_monitored=true, re_data_time_filter='creation_time', materialized='table',
-    re_data_anomaly_detector={'name': 'z_score', 'threshold': 0.5},)
+    config(
+        re_data_monitored=true,
+        re_data_time_filter='creation_time',
+        re_data_anomaly_detector={'name': 'z_score', 'threshold': 0.5},
+        materialized='table',
+        tags=['testtag']
+    )
 }}
 select *
 from {{ ref('sample_with_anomaly') }}
 
@@ -51,9 +51,9 @@ def test_monitoring(db, source_schema):
         'dbt run --select monitoring.*', db, dbt_vars
     )
 
-    dbt_test('--select test_re_data_anomalies test_re_data_metrics test_re_data_z_score re_data_metrics transformed', db, dbt_vars)
+    dbt_test('--select test_re_data_anomalies test_re_data_metrics test_re_data_z_score test_re_data_table_samples re_data_metrics transformed', db, dbt_vars)
     # dbt build will "duplicate" saved test result history
-    dbt_build('--select test_re_data_anomalies test_re_data_metrics test_re_data_z_score re_data_metrics transformed', db, dbt_vars)
+    dbt_build('--select test_re_data_anomalies test_re_data_metrics test_re_data_z_score test_re_data_table_samples re_data_metrics transformed', db, dbt_vars)
 
     # tests test_history seperately, because those are actually added to DB after running
     # dbt test command
 
@@ -0,0 +1,5 @@
+table_name,sample_data_length
+BUY_EVENTS,506
+RE_DATA_SOURCE_TEST_TABLE,361
+SAMPLE_TABLE,830
+SAMPLE_WITH_ANOMALY,507
@@ -1,33 +1,35 @@
 table_name,column_name,test_name,status,message,failures_count,severity
-BUY_EVENTS,---,ts_row_count__1,Pass,---,0,ERROR
 TEST_RE_DATA_Z_SCORE,---,pected_z_score_,Pass,---,0,ERROR
-TEST_RE_DATA_METRICS,---,pected_metrics_,Pass,---,0,ERROR
 TEST_RE_DATA_ANOMALIES,---,cted_anomalies_,Pass,---,0,ERROR
-BUY_EVENTS,---,null__freshness,Pass,---,0,ERROR
+TEST_RE_DATA_TABLE_SAMPLES,---,_table_samples_,Pass,---,0,ERROR
+TEST_RE_DATA_METRICS,---,pected_metrics_,Pass,---,0,ERROR
+BUY_EVENTS,---,ts_row_count__1,Pass,---,0,ERROR
 BUY_EVENTS,VALUE2,alue2__min__200,Pass,---,0,ERROR
-BUY_EVENTS,---,0__row_count__0,Pass,---,0,ERROR
+BUY_EVENTS,---,null__freshness,Pass,---,0,ERROR
 BUY_EVENTS,---,_table_rows__10,Pass,---,0,ERROR
-BUY_EVENTS,VALUE1,ulls_percent__0,Pass,---,0,ERROR
 BUY_EVENTS,VALUE1,alue1__min__100,Pass,---,0,ERROR
-BUY_EVENTS,VALUE1,__nulls_percent,Pass,---,0,ERROR
+BUY_EVENTS,---,0__row_count__0,Pass,---,0,ERROR
 BUY_EVENTS,VALUE1,alue1__min__107,Pass,---,0,ERROR
+BUY_EVENTS,VALUE1,ulls_percent__0,Pass,---,0,ERROR
+BUY_EVENTS,VALUE1,__nulls_percent,Pass,---,0,ERROR
 RE_DATA_METRICS,---,_buy_events___3,Pass,---,0,ERROR
 RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
 RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
 RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
-BUY_EVENTS,---,ts_row_count__1,Pass,---,0,ERROR
-TEST_RE_DATA_Z_SCORE,---,pected_z_score_,Pass,---,0,ERROR
-TEST_RE_DATA_METRICS,---,pected_metrics_,Pass,---,0,ERROR
-TEST_RE_DATA_ANOMALIES,---,cted_anomalies_,Pass,---,0,ERROR
 BUY_EVENTS,---,null__freshness,Pass,---,0,ERROR
+BUY_EVENTS,---,ts_row_count__1,Pass,---,0,ERROR
+BUY_EVENTS,---,_table_rows__10,Pass,---,0,ERROR
 BUY_EVENTS,VALUE2,alue2__min__200,Pass,---,0,ERROR
 BUY_EVENTS,---,0__row_count__0,Pass,---,0,ERROR
-BUY_EVENTS,---,_table_rows__10,Pass,---,0,ERROR
 BUY_EVENTS,VALUE1,ulls_percent__0,Pass,---,0,ERROR
-BUY_EVENTS,VALUE1,alue1__min__100,Pass,---,0,ERROR
-BUY_EVENTS,VALUE1,__nulls_percent,Pass,---,0,ERROR
 BUY_EVENTS,VALUE1,alue1__min__107,Pass,---,0,ERROR
+BUY_EVENTS,VALUE1,alue1__min__100,Pass,---,0,ERROR
 RE_DATA_METRICS,---,_buy_events___3,Pass,---,0,ERROR
+BUY_EVENTS,VALUE1,__nulls_percent,Pass,---,0,ERROR
+RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
 RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
+TEST_RE_DATA_TABLE_SAMPLES,---,_table_samples_,Pass,---,0,ERROR
 RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
-RE_DATA_METRICS,---,ref_buy_events_,Pass,---,0,ERROR
+TEST_RE_DATA_ANOMALIES,---,cted_anomalies_,Pass,---,0,ERROR
+TEST_RE_DATA_Z_SCORE,---,pected_z_score_,Pass,---,0,ERROR
+TEST_RE_DATA_METRICS,---,pected_metrics_,Pass,---,0,ERROR
@@ -0,0 +1,41 @@
+
+{% macro get_model_config(monitored) %}
+    {% set model = {} %}
+    {% do model.update({'name': re_data.row_value(monitored, 'name')}) %}
+    {% do model.update({'schema': re_data.row_value(monitored, 'schema')}) %}
+    {% do model.update({'database': re_data.row_value(monitored, 'database')}) %}
+    {% do model.update({'time_filter': re_data.row_value(monitored, 'time_filter')}) %}    
+    {% do model.update({'metrics': fromjson(re_data.row_value(monitored, 'metrics'))}) %}
+    {% do model.update({'model_name': model.get('database') + '.' + model.get('schema') + '.' + model.get('name')}) %}
+    {% do model.update({'table_name': full_table_name_values(model.get('name'), model.get('schema'), model.get('database'))}) %}
+
+    {% set columns_db = re_data.row_value(monitored, 'columns') %}
+
+    {% set column_list = fromjson(columns_db) if columns_db is not none else none %}
+    {% set columns_dict = re_data.dict_from_list(column_list) %}
+
+    {% do model.update({'columns_dict': columns_dict}) %}
+    {% do model.update({'columns_compute_all': columns_dict is none}) %}
+
+    {% set columns_query %}
+        select * from {{ ref('re_data_columns') }}
+        where name = '{{ model.name }}' and schema = '{{ model.schema }}' and database = '{{ model.database }}'
+    {% endset %}
+    {% set columns = run_query(columns_query) %}
+
+    {% set columns_info = {} %}
+    {% for col in columns %}
+        {% set column_name = re_data.row_value(col, 'column_name') %}
+        {% set data_type = re_data.get_column_type(col) %}
+        {% do columns_info.update({column_name: { 'data_type': data_type }}) %}
+    {% endfor %}
+
+    {% do model.update({'columns_info': columns_info}) %}
+    {% do model.update({'columns': columns}) %}
+
+    {{ return(model) }}
+{% endmacro %}
+
+{% macro should_compute_metric(model, column_name) %}
+    {{ return(model.columns_compute_all or model.columns_dict.get(column_name)) }}
+{% endmacro %}