Zum Hauptinhalt springen

Automatische Spracherkennung (ASR)

Das Python Programm laboratorium-ai-asr generiert das Transkript der Gespräche. Hierfür wird "WhisperX" aus [1] mit dem "medium" Whisper Modell von Openai verwendet [2]. Die Verwendung anderer Modelle ist möglich (siehe Auflistung) indem der entsprechende Modellname in der whisperx.load_model() Funktion angepasst wird. Bei einer passenden Konfigurierung der Pythonumgebung können die Variablen DEVICE und COMPUTE_TYPE ebenfalls angepasst werden.

Verfügbare Whisper Modelle:

  • tiny
  • base
  • small
  • medium
  • large-v1
  • large-v2
  • large-v3

Es ist zu beachten, dass es bei erstmaliger Ausführung der Whisper Modelle zu Verzögerungen kommen kann, da diese zunächst runtergeladen werden müssen, was allerdings komplett automatisch erfolgen sollte.

DEVICE - String:

  • cpu: Das Modell wird auf der CPU ausgeführt.
  • cuda: Ermöglicht die Nutzung der GPU zur Beschleunigung der Transkription der Sprachsignal unter Windows und Linux.

Weitere Optionen verfügbar, hängen allerdings von der verwendeten Hardware ab. Weitere Information unter https://pytorch.org/stable/tensor_attributes.html#torch.device verfügbar.

COMPUTE_TYPE - String:

  • default, auto, int8, int8_float32, int8_float16, int8_bfloat16, int16, float16, bfloat16, float32: Beeinflusst Speicherverbrauch und die Genauigkeit des Modells. Welche Optionen für COMPUTE_TYPE im Einzelfall verfügbar sind hängt von der Hardware des verwendeten Systems ab.

Eingabe & Ausgabe Überblick

  • Eingabe:

    • .wav-Datei
  • Ausgabe:

    • .json-Datei:
      • Text: String

[1] M. Bain, J. Huh, T. Han, and A. Zisserman, “WhisperX: Time-Accurate Speech Transcription of Long-Form Audio,” INTERSPEECH 2023, 2023. [2] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, Robust Speech Recognition via Large-Scale Weak Supervision. 2022. [Online]. Available: https://arxiv.org/abs/2212.04356