Fix scenario mining evaluation bug (#311)

CainanD · web-flow · commit f1bedd756afa · 2025-05-18T15:52:31.000-07:00
* Fix scenario mining evaluation bug

* Remove velocity from scenario mining evaluation
diff --git a/src/av2/evaluation/scenario_mining/eval.py b/src/av2/evaluation/scenario_mining/eval.py
@@ -2,8 +2,8 @@
 
 Evaluation Metrics:
     HOTA: see https://arxiv.org/abs/2009.07736
-    scenario-level F1: see https://jivp-eurasipjournals.springeropen.com/articles/10.1155/2008/246309
-    timestamp-level F1: see https://arxiv.org/abs/2008.08063
+    scenario-level F1
+    timestamp-level F1
 """
 
 from pathlib import Path
@@ -136,11 +136,13 @@ def filter_drivable_area(tracks: Sequences, dataset_dir: Optional[str]) -> Seque
             frame["translation_m"] = frame["translation_m"][is_evaluated]
             frame["size"] = frame["size"][is_evaluated]
             frame["yaw"] = frame["yaw"][is_evaluated]
-            frame["velocity_m_per_s"] = frame["velocity_m_per_s"][is_evaluated]
             frame["label"] = frame["label"][is_evaluated]
             frame["name"] = frame["name"][is_evaluated]
             frame["track_id"] = frame["track_id"][is_evaluated]
 
+            if "velocity_m_per_s" in frame:
+                frame["velocity_m_per_s"] = frame["velocity_m_per_s"][is_evaluated]
+
             if "score" in frame:
                 frame["score"] = frame["score"][is_evaluated]
 
@@ -251,8 +253,8 @@ def compute_temporal_metrics(
         output_dir: The directory to save the plotted confusion matrices.
 
     Returns:
-        timestamp_f1: The F1 score where each timestamp counts as a prediction to evaluate.
         scenario_f1: The F1 score where each log-prompt pair counts as a prediction to evaluate.
+        timestamp_f1: The F1 score where each timestamp counts as a prediction to evaluate.
 
 
     """
@@ -364,7 +366,7 @@ def evaluate(
     output_dir = out + "/partial_tracks"
     Path(output_dir).mkdir(parents=True, exist_ok=True)
 
-    partial_track_hota, timestamp_f1, scenario_f1 = evaluate_scenario_mining(
+    partial_track_hota, scenario_f1, timestamp_f1 = evaluate_scenario_mining(
         track_predictions,
         labels,
         objective_metric=objective_metric,
@@ -421,8 +423,8 @@ def evaluate_scenario_mining(
 
     Returns:
         referred_hota: The HOTA tracking metric applied to all objects with the category REFERRED_OBJECT
-        timestamp_f1: A retrieval/classification metric for determining if each timestamp contains any instance of the prompt.
         scenario_f1: A retrieval/classification metric for determining if each data log contains any instance of the prompt.
+        timestamp_f1: A retrieval/classification metric for determining if each timestamp contains any instance of the prompt.
     """
     classes = list(AV2_CATEGORIES)