Forced Alignment
Das Python Programm laboratorium-ai-forced-alignment führt basierend auf dem Sprachsignal und dem dazugehörigen Transkript ein Forced alignment durch, um die Zeitpunkte zu bestimmen, an denen gesprochen wurde.
int2float()
Diese Funktion wandelt ein Numpy Array aus Integern in eines mit Float Werten um.
- Eingabe:
- sound: Numpy array
- Ausgabe:
- sound: Numpy array
tokenize_sentences_with_spans()
Diese Funktion unterteilt das Transkript in Sätze und erzeugt die entsprechenden Angaben, wann ein Satz beginnt und endet.
create_empty_output()
Diese Funktion erstellt ein Ausgabe Dictionary bei dem jedes Feld leer ist.
-
Eingabe:
-
Ausgabe:
get_word_times()
Diese Funktion generiert die Start- und Endzeit für jedes Wort im Transkript.
-
Eingabe:
-
Ausgabe:
normalize_transcript()
Diese Funktion normalisiert das Transkript für die weitere Verarbeitung. Hierfür werden Umlaute in ihre entsprechenden Umlautdiphthonge umgewandelt (z.B. ä zu ae) und Zahlen in ihre entsprechenden Wörter (z. B. 100 in einhundert)
generate_alginment()
-
Eingabe:
-
Ausgabe:
get_confidences()
In dieser Funktion wird die Konfidenz ermittelt.
Eingabe & Ausgabe Überblick
-
Eingabe:
- .json-Datei:
-
Ausgabe:
- .json-Datei:
-
Additional Data:
- WhisperFilterList.json
WhisperFilterList.json
Liste von Sätzen, welche mit Halluzinationen des Whisper Modells assoziert sind. Mit Hilfe dieser Liste und einer Schätzung der Konfidenz des Modells für eine Ausgabe wird das Transkript von möglichen auftretenden Halluzinationen bereinigt.