fix batch audio return type

Mahmoud-ghareeb · Mahmoud-ghareeb · commit dcc7c4a96f1d · 2025-12-02T17:46:48.000+03:00
diff --git a/faster_whisper/transcribe.py b/faster_whisper/transcribe.py
@@ -298,7 +298,7 @@ def transcribe(
         language_detection_segments: int = 1,
     ) -> Union[
         Tuple[Iterable[Segment], TranscriptionInfo],
-        List[Tuple[List[Segment], TranscriptionInfo]],
+        Tuple[List[List[Segment]], TranscriptionInfo],
     ]:
         """Transcribe audio in chunks in batched fashion and return with language info.
 
@@ -379,9 +379,9 @@ def transcribe(
             - a generator over transcribed segments
             - an instance of TranscriptionInfo
 
-          For multiple audios: A list of tuples, each containing:
-            - a list of transcribed segments
-            - an instance of TranscriptionInfo
+          For multiple audios: A tuple with:
+            - a list of segment lists (one per audio)
+            - an instance of TranscriptionInfo (using first audio's duration)
         """
 
         is_batch = isinstance(audio, list)
@@ -595,7 +595,7 @@ def transcribe(
         clip_timestamps_provided = clip_timestamps is not None
 
         if is_batch:
-            grouped_segments = self._batched_segments_generator_grouped(
+            segments = self._batched_segments_generator_grouped(
                 all_features,
                 tokenizer,
                 all_chunks_metadata,
@@ -605,20 +605,17 @@ def transcribe(
                 log_progress,
             )
 
-            results = []
-            for i, audio_segments in enumerate(grouped_segments):
-                info = TranscriptionInfo(
-                    language=language,
-                    language_probability=language_probability,
-                    duration=audio_infos[i]["duration"],
-                    duration_after_vad=audio_infos[i]["duration_after_vad"],
-                    transcription_options=options,
-                    vad_options=_vad_parameters,
-                    all_language_probs=all_language_probs,
-                )
-                results.append((audio_segments, info))
+            info = TranscriptionInfo(
+                language=language,
+                language_probability=language_probability,
+                duration=audio_infos[0]["duration"],
+                duration_after_vad=audio_infos[0]["duration_after_vad"],
+                transcription_options=options,
+                vad_options=_vad_parameters,
+                all_language_probs=all_language_probs,
+            )
 
-            return results
+            return segments, info
         else:
             info = TranscriptionInfo(
                 language=language,
diff --git a/tests/test_transcribe.py b/tests/test_transcribe.py
@@ -308,19 +308,18 @@ def test_transcribe_multiple_audios(jfk_path):
     model = WhisperModel("tiny")
     batched_model = BatchedInferencePipeline(model=model)
 
-    results = batched_model.transcribe(
+    all_segments, info = batched_model.transcribe(
         [jfk_path, jfk_path, jfk_path],
         batch_size=8,
     )
 
-    assert isinstance(results, list)
-    assert len(results) == 3
-
-    for segments, info in results:
-        assert info.language == "en"
-        assert info.language_probability > 0.7
-        assert info.duration == 11
+    assert isinstance(all_segments, list)
+    assert len(all_segments) == 3
+    assert info.language == "en"
+    assert info.language_probability > 0.7
+    assert info.duration == 11
 
+    for segments in all_segments:
         assert isinstance(segments, list)
         assert len(segments) >= 1
 
@@ -339,16 +338,17 @@ def test_transcribe_multiple_audios_with_word_timestamps(jfk_path):
     model = WhisperModel("tiny")
     batched_model = BatchedInferencePipeline(model=model)
 
-    results = batched_model.transcribe(
+    all_segments, info = batched_model.transcribe(
         [jfk_path, jfk_path],
         batch_size=8,
         word_timestamps=True,
         without_timestamps=False,
     )
 
-    assert len(results) == 2
+    assert len(all_segments) == 2
+    assert info.language == "en"
 
-    for segments, info in results:
+    for segments in all_segments:
         assert isinstance(segments, list)
         for segment in segments:
             assert segment.words is not None