Automatische Spracherkennung (ASR)
Das Python Programm laboratorium-ai-asr generiert das Transkript der Gespräche. Hierfür wird "WhisperX" aus [1] mit dem "medium" Whisper Modell von Openai verwendet [2]. Die Verwendung anderer Modelle ist möglich (siehe Auflistung) indem der entsprechende Modellname in der whisperx.load_model() Funktion angepasst wird. Bei einer passenden Konfigurierung der Pythonumgebung können die Variablen DEVICE und COMPUTE_TYPE ebenfalls angepasst werden.
Verfügbare Whisper Modelle:
- tiny
- base
- small
- medium
- large-v1
- large-v2
- large-v3
Es ist zu beachten, dass es bei erstmaliger Ausführung der Whisper Modelle zu Verzögerungen kommen kann, da diese zunächst runtergeladen werden müssen, was allerdings komplett automatisch erfolgen sollte.
DEVICE - String:
- cpu: Das Modell wird auf der CPU ausgeführt.
- cuda: Ermöglicht die Nutzung der GPU zur Beschleunigung der Transkription der Sprachsignal unter Windows und Linux.
Weitere Optionen verfügbar, h ängen allerdings von der verwendeten Hardware ab. Weitere Information unter https://pytorch.org/stable/tensor_attributes.html#torch.device verfügbar.
COMPUTE_TYPE - String:
- default, auto, int8, int8_float32, int8_float16, int8_bfloat16, int16, float16, bfloat16, float32: Beeinflusst Speicherverbrauch und die Genauigkeit des Modells. Welche Optionen für COMPUTE_TYPE im Einzelfall verfügbar sind hängt von der Hardware des verwendeten Systems ab.
Eingabe & Ausgabe Überblick
-
Eingabe:
- .wav-Datei
-
Ausgabe:
- .json-Datei:
- Text: String
- .json-Datei:
[1] M. Bain, J. Huh, T. Han, and A. Zisserman, “WhisperX: Time-Accurate Speech Transcription of Long-Form Audio,” INTERSPEECH 2023, 2023. [2] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, Robust Speech Recognition via Large-Scale Weak Supervision. 2022. [Online]. Available: https://arxiv.org/abs/2212.04356