ProjectASAP
diff --git a/‎asap-tools/execution-utilities/benchmark/README.md‎
Lines changed: 97 additions & 96 deletions b/‎asap-tools/execution-utilities/benchmark/README.md‎
Lines changed: 97 additions & 96 deletions
@@ -19,6 +19,10 @@ data_file → export_to_database.py  run_benchmark.py → results/
           ClickHouse :8123 (baseline)
 ```
 
+**Key difference from the old pipeline:** Arroyo reads directly from a local
+file (`single_file_custom` connector) rather than from a Kafka input topic.
+Kafka is still required for the **sketch output** topic (`sketch_topic`).
+
 ---
 
 ## Prerequisites
@@ -27,8 +31,8 @@ data_file → export_to_database.py  run_benchmark.py → results/
 export INSTALL_DIR=/scratch/sketch_db_for_prometheus
 pip3 install --user -r requirements.txt
 
-# Build binaries (one-time) — workspace target is at ~/ASAPQuery/target/release/
-cd ~/ASAPQuery && cargo build --release
+# Build binaries (one-time)
+cd ~/ASAPQuery/asap-query-engine && cargo build --release
 ```
 
 ---
@@ -56,7 +60,6 @@ The Arroyo file source requires RFC3339 timestamps and string metadata columns.
 This step converts the raw ClickBench JSON:
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python prepare_data.py \
     --dataset clickbench \
     --input ./data/hits.json.gz \
@@ -71,19 +74,17 @@ This produces `hits_arroyo.json` with:
 
 ### Step 3 — Start infrastructure
 
-Skip any service that is already running.
-
 ```bash
-# Kafka — skip if `kafka-topics.sh --list` succeeds
+# Kafka
 ~/ASAPQuery/asap-tools/installation/kafka/run.sh $INSTALL_DIR/kafka
 
-# Create sketch output topic — skip if sketch_topic already exists
+# Create sketch output topic
 KAFKA=$INSTALL_DIR/kafka/bin
 $KAFKA/kafka-topics.sh --bootstrap-server localhost:9092 --create \
     --topic sketch_topic --partitions 1 --replication-factor 1 \
     --config max.message.bytes=20971520
 
-# ClickHouse — skip if port 8123 is already listening
+# ClickHouse
 ~/ASAPQuery/asap-tools/installation/clickhouse/run.sh $INSTALL_DIR
 ```
 
@@ -95,12 +96,36 @@ $KAFKA/kafka-topics.sh --bootstrap-server localhost:9092 --create \
     > /tmp/arroyo.log 2>&1 &
 ```
 
-### Step 5 — Launch Arroyo sketch pipeline (file source)
+### Step 5 — Generate queries and configs
+
+```bash
+python generate_queries.py \
+    --table-name hits \
+    --ts-column EventTime \
+    --value-column ResolutionWidth \
+    --group-by-columns RegionID,OS,UserAgent,TraficSourceID \
+    --window-size 10 \
+    --num-queries 50 \
+    --window-form dateadd \
+    --generate-configs \
+    --auto-detect-timestamps \
+    --data-file ./data/hits_arroyo.json \
+    --data-file-format json \
+    --output-prefix ./queries/clickbench
+```
+
+This writes:
+- `queries/clickbench_asap.sql` — ASAP queries (ISO timestamps)
+- `queries/clickbench_clickhouse.sql` — ClickHouse queries (datetime timestamps)
+- `queries/clickbench_streaming.yaml` — Arroyo streaming config
+- `queries/clickbench_inference.yaml` — QueryEngineRust inference config
+
+### Step 6 — Launch Arroyo sketch pipeline (file source)
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python export_to_arroyo.py \
-    --streaming-config ./configs/clickbench_streaming.yaml \
+    --streaming-config ./queries/clickbench_streaming.yaml \
+    --source-type file \
     --input-file ./data/hits_arroyo.json \
     --file-format json \
     --ts-format rfc3339 \
@@ -109,21 +134,21 @@ python export_to_arroyo.py \
     --output-dir ./arroyo_outputs
 ```
 
-### Step 6 — Start QueryEngineRust
+### Step 7 — Start QueryEngineRust
 
 ```bash
-cd ~/ASAPQuery
+cd ~/ASAPQuery/asap-query-engine
 nohup ./target/release/query_engine_rust \
     --kafka-topic sketch_topic --input-format json \
-    --config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/configs/clickbench_inference.yaml \
-    --streaming-config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/configs/clickbench_streaming.yaml \
+    --config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/queries/clickbench_inference.yaml \
+    --streaming-config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/queries/clickbench_streaming.yaml \
     --http-port 8088 --delete-existing-db --log-level DEBUG \
-    --output-dir ./asap-query-engine/output --streaming-engine arroyo \
+    --output-dir ./output --streaming-engine arroyo \
     --query-language SQL --lock-strategy per-key \
     --prometheus-scrape-interval 1 > /tmp/query_engine.log 2>&1 &
 ```
 
-### Step 7 — Load data into ClickHouse (baseline)
+### Step 8 — Load data into ClickHouse (baseline)
 
 ```bash
 cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
@@ -136,35 +161,14 @@ python export_to_database.py \
 
 Verify: `$INSTALL_DIR/clickhouse client --query "SELECT count(*) FROM hits"`
 
-### Step 8 — Generate SQL query files
-
-```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
-python generate_queries.py \
-    --table-name hits \
-    --ts-column EventTime \
-    --value-column ResolutionWidth \
-    --group-by-columns RegionID,OS,UserAgent,TraficSourceID \
-    --window-size 10 \
-    --num-queries 50 \
-    --ts-format datetime \
-    --window-form dateadd \
-    --auto-detect-timestamps \
-    --data-file ./data/hits_arroyo.json \
-    --data-file-format json \
-    --output-prefix ./queries/clickbench
-```
-
-This writes `queries/clickbench.sql`.
-
 ### Step 9 — Run benchmark
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python run_benchmark.py \
     --mode both \
-    --asap-sql-file ./queries/clickbench.sql \
-    --baseline-sql-file ./queries/clickbench.sql \
+    --asap-sql-file ./queries/clickbench_asap.sql \
+    --baseline-sql-file ./queries/clickbench_clickhouse.sql \
+    --asap-url "http://localhost:8088/api/v1/query" \
     --output-dir ./results \
     --output-prefix clickbench
 ```
@@ -179,14 +183,12 @@ Results: `results/clickbench_asap.csv`, `results/clickbench_baseline.csv`,
 ### Step 1 — Download dataset
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python download_dataset.py --dataset h2o --output-dir ./data
 ```
 
 ### Step 2 — Prepare data for Arroyo file source
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python prepare_data.py \
     --dataset h2o \
     --input ./data/G1_1e7_1e2_0_0.csv \
@@ -196,12 +198,29 @@ python prepare_data.py \
 
 ### Steps 3–4 — Start infrastructure and Arroyo (same as ClickBench)
 
-### Step 5 — Launch Arroyo sketch pipeline
+### Step 5 — Generate queries and configs
+
+```bash
+python generate_queries.py \
+    --table-name h2o_groupby \
+    --ts-column timestamp \
+    --value-column v1 \
+    --group-by-columns id1,id2 \
+    --window-size 10 \
+    --num-queries 50 \
+    --generate-configs \
+    --auto-detect-timestamps \
+    --data-file ./data/h2o_arroyo.json \
+    --data-file-format json \
+    --output-prefix ./queries/h2o
+```
+
+### Step 6 — Launch Arroyo sketch pipeline
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python export_to_arroyo.py \
-    --streaming-config ./configs/h2o_streaming.yaml \
+    --streaming-config ./queries/h2o_streaming.yaml \
+    --source-type file \
     --input-file ./data/h2o_arroyo.json \
     --file-format json \
     --ts-format rfc3339 \
@@ -210,57 +229,38 @@ python export_to_arroyo.py \
     --output-dir ./arroyo_outputs
 ```
 
-### Step 6 — Start QueryEngineRust
+### Step 7 — Start QueryEngineRust
 
 ```bash
-cd ~/ASAPQuery
+cd ~/ASAPQuery/asap-query-engine
 nohup ./target/release/query_engine_rust \
     --kafka-topic sketch_topic --input-format json \
-    --config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/configs/h2o_inference.yaml \
-    --streaming-config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/configs/h2o_streaming.yaml \
+    --config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/queries/h2o_inference.yaml \
+    --streaming-config ~/ASAPQuery/asap-tools/execution-utilities/benchmark/queries/h2o_streaming.yaml \
     --http-port 8088 --delete-existing-db --log-level DEBUG \
-    --output-dir ./asap-query-engine/output --streaming-engine arroyo \
+    --output-dir ./output --streaming-engine arroyo \
     --query-language SQL --lock-strategy per-key \
     --prometheus-scrape-interval 1 > /tmp/query_engine.log 2>&1 &
 ```
 
-### Step 7 — Load data into ClickHouse (baseline)
+### Step 8 — Load data into ClickHouse (baseline)
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python export_to_database.py \
     --dataset h2o \
     --file-path ./data/G1_1e7_1e2_0_0.csv \
     --init-sql-file ./configs/h2o_init.sql \
     --max-rows 1000000
 ```
 
-### Step 8 — Generate SQL query files
-
-```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
-python generate_queries.py \
-    --table-name h2o_groupby \
-    --ts-column timestamp \
-    --value-column v1 \
-    --group-by-columns id1,id2 \
-    --window-size 10 \
-    --num-queries 50 \
-    --ts-format iso \
-    --auto-detect-timestamps \
-    --data-file ./data/h2o_arroyo.json \
-    --data-file-format json \
-    --output-prefix ./queries/h2o
-```
-
 ### Step 9 — Run benchmark
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
 python run_benchmark.py \
     --mode both \
-    --asap-sql-file ./queries/h2o.sql \
-    --baseline-sql-file ./queries/h2o.sql \
+    --asap-sql-file ./queries/h2o_asap.sql \
+    --baseline-sql-file ./queries/h2o_clickhouse.sql \
+    --asap-url "http://localhost:8088/api/v1/query" \
     --output-dir ./results \
     --output-prefix h2o
 ```
@@ -270,48 +270,49 @@ python run_benchmark.py \
 ## Custom Dataset
 
 ```bash
-cd ~/ASAPQuery/asap-tools/execution-utilities/benchmark
-
 # 1. Download (any HTTP URL)
 python download_dataset.py --dataset custom \
     --custom-url https://example.com/mydata.json.gz \
     --output-dir ./data
 
 # 2. Prepare (edit prepare_data.py for your schema, or skip if already RFC3339)
 
-# 3. Export to Arroyo
+# 3. Generate queries and configs
+python generate_queries.py \
+    --table-name my_table \
+    --ts-column event_time \
+    --value-column metric_value \
+    --group-by-columns region,host \
+    --window-size 10 \
+    --num-queries 50 \
+    --generate-configs \
+    --auto-detect-timestamps \
+    --data-file ./data/mydata.json \
+    --output-prefix ./queries/my_dataset
+
+# 4. Export to Arroyo
 python export_to_arroyo.py \
-    --streaming-config ./configs/my_streaming.yaml \
+    --streaming-config ./queries/my_dataset_streaming.yaml \
+    --source-type file \
     --input-file ./data/mydata.json \
     --file-format json \
     --ts-format rfc3339 \
     --pipeline-name my_pipeline \
     --arroyosketch-dir ~/ASAPQuery/asap-summary-ingest
 
-# 4. Export to ClickHouse
+# 5. Export to ClickHouse
 python export_to_database.py \
     --dataset custom \
     --file-path ./data/mydata.json \
     --init-sql-file ./configs/my_init.sql \
     --table-name my_table
 
-# 5. Generate queries
-python generate_queries.py \
-    --table-name my_table \
-    --ts-column event_time \
-    --value-column metric_value \
-    --group-by-columns region,host \
-    --window-size 10 \
-    --num-queries 50 \
-    --auto-detect-timestamps \
-    --data-file ./data/mydata.json \
-    --output-prefix ./queries/my_dataset
-
 # 6. Run benchmark
 python run_benchmark.py \
     --mode both \
-    --asap-sql-file ./queries/my_dataset.sql \
-    --baseline-sql-file ./queries/my_dataset.sql \
+    --asap-sql-file ./queries/my_dataset_asap.sql \
+    --baseline-sql-file ./queries/my_dataset_clickhouse.sql \
+    --asap-url "http://localhost:8088/api/v1/query" \
     --output-dir ./results
 ```
 
@@ -344,8 +345,8 @@ $INSTALL_DIR/clickhouse client --query "TRUNCATE TABLE hits"
 |------|---------|
 | `download_dataset.py` | Download ClickBench, H2O, or custom datasets |
 | `prepare_data.py` | Convert raw data to Arroyo file source format (RFC3339, string columns) |
-| `export_to_arroyo.py` | Launch Arroyo sketch pipeline from a local file source |
+| `export_to_arroyo.py` | Launch Arroyo sketch pipeline (file or kafka source) |
 | `export_to_database.py` | Load data into ClickHouse for baseline |
-| `generate_queries.py` | Generate a single SQL query file (database-style, compatible with both ASAP and ClickHouse) |
+| `generate_queries.py` | Generate paired ASAP + ClickHouse SQL query files and streaming/inference YAML configs |
 | `run_benchmark.py` | Run queries and produce CSV results + plots |
-| `configs/` | Dataset-specific streaming/inference YAML and ClickHouse init SQL |
+| `configs/` | ClickHouse init SQL (CREATE TABLE statements) |