examples: Add token-level-timestamps examples

CodeWithKyrian · CodeWithKyrian · commit 89d74c19b7f5 · 2024-12-10T00:34:47.000+01:00
diff --git a/examples/high-level.php b/examples/high-level.php
@@ -2,11 +2,8 @@
 
 declare(strict_types=1);
 
-use Codewithkyrian\Whisper\ModelLoader;
 use Codewithkyrian\Whisper\SegmentData;
 use Codewithkyrian\Whisper\Whisper;
-use Codewithkyrian\Whisper\WhisperContext;
-use Codewithkyrian\Whisper\WhisperContextParameters;
 use Codewithkyrian\Whisper\WhisperException;
 use Codewithkyrian\Whisper\WhisperFullParams;
 
@@ -18,16 +15,19 @@
 
 try {
     $fullParams = WhisperFullParams::default()
+        ->withSegmentCallback(function (SegmentData $data) {
+            $start = toTimestamp($data->startTimestamp);
+            $end = toTimestamp($data->endTimestamp);
+            printf("[%s - %s]: %s\n", $start, $end, $data->text);
+        })
         ->withNThreads(4);
 
-    $whisper = Whisper::fromPretrained('tiny.en', baseDir: __DIR__.'/models');
+    $whisper = Whisper::fromPretrained('tiny.en', __DIR__.'/models', $fullParams);
 
     $audio = readAudio(__DIR__.'/sounds/jfk.wav');
 
     $segments = $whisper->transcribe($audio, 4);
 
-    printf('Generated Segments: %d', count($segments));
-
     // Create output files
     $transcriptionPath = __DIR__.'/outputs/transcription.srt';
     outputSrt($segments, $transcriptionPath);
diff --git a/examples/token-level-timestamps.php b/examples/token-level-timestamps.php
@@ -0,0 +1,47 @@
+<?php
+
+declare(strict_types=1);
+
+use Codewithkyrian\Whisper\SegmentData;
+use Codewithkyrian\Whisper\Whisper;
+use Codewithkyrian\Whisper\WhisperException;
+use Codewithkyrian\Whisper\WhisperFullParams;
+
+use function Codewithkyrian\Whisper\readAudio;
+use function Codewithkyrian\Whisper\toTimestamp;
+
+require_once __DIR__.'/../vendor/autoload.php';
+
+try {
+    $fullParams = WhisperFullParams::default()
+        ->withSegmentCallback(function (SegmentData $data) {
+            $start = toTimestamp($data->startTimestamp);
+            $end = toTimestamp($data->endTimestamp);
+            printf("[%s - %s]: %s\n", $start, $end, $data->text);
+        })
+        ->withTokenTimestamps()
+        ->withSplitOnWord(true)
+        ->withMaxLen(1)
+        ->withNThreads(4);
+
+    $whisper = Whisper::fromPretrained('tiny.en', __DIR__.'/models', $fullParams);
+
+    $audio = readAudio(__DIR__.'/sounds/jfk.wav');
+
+    $segments = $whisper->transcribe($audio, 4);
+
+    foreach ($segments as $segment) {
+        printf(
+            "[%s - %s]: %s\n",
+            toTimestamp($segment->startTimestamp),
+            toTimestamp($segment->endTimestamp),
+            $segment->text
+        );
+    }
+} catch (WhisperException $e) {
+    fprintf(STDERR, "Whisper error: %s\n", $e->getMessage());
+    exit(1);
+} catch (Exception $e) {
+    fprintf(STDERR, "Error: %s\n", $e->getMessage());
+    exit(1);
+}