Frequenz- und Lautstärkeschätzung
Das Python Programm laboratorium-ai-pitch-loudness schätzt die Grundfrequenz und Lautstärke der Sprachsignale. Für die Schätzung der Grundfrequenz (F0) wird der pYIN Algorithmus aus [3] verwendet. Die Schätzung der Lautstärke basiert auf dem quadratischen Mittel der Signalamplitude.
compute_f0_statistics()
Ermittelt die mittlere, maximale und minimale Grundfrequenz aus den geschätzten F0 Werten eines Sprachabschnitts.
-
Eingabe:
- f0: Numpy array
-
Ausgabe:
- mean_f0: Float
- max_f0: Float
- min_f0: Float
compute_db_statistics()
Ermittelt die mittlere, maximale und minimale Lautstärke aus den geschätzen Lautstärke Werten eines Sprachabschnitts.
-
Eingabe:
- db: Numpy array
-
Ausgabe:
- db_mean: Float
- db_max: Float
- db_min: Float
Eingabe & Ausgabe Überblick
-
Eingabe:
- .wav_Datei
- .json-Datei:
- Start Times: FLOAT-List
- End Times: FLOAT-List
- .json-Datei:
- .wav_Datei
-
Ausgabe:
- .json-Datei:
- Pitch Values: FLOAT-List
- Pitch Statistics: DICT-List
- Loudness Values: FLOAT-Dict
- Loudness Statistics: DICT-List
- .json-Datei:
-
Additional Data:
- pYIN_util.py
pYIN_util.py
Dieses Skript enthält alle Funktionen, die benötigt werden umd die Grundfrequenz und Lautstärke der Sprachsignale zu schätzen. Die Funktionen _cumulative_mean_normalized_difference(), _parabolic_interpolation() und pyin() entsprechen im Wesentlichen dem Code der Librosa Implementierung des pYIN-Algorithmus, so dass für eine genauere Erläuterung der Funktionsweise unter https://librosa.org/doc/0.10.2/generated/librosa.pyin.html#librosa.pyin eingesehen werden kann. Lediglich die Funktion pyin() wurde so erweitert, dass die Schätzung der Lautstärke aus den gleichen Signalfenstern erfolgt, auf denen auch die Schätzung der Grundfrequenz basiert, um sicherzustellen, dass für beide Parameter die gleiche Anzahl an Werten für jedes Signalfenster geschätzt wird. Entsprechend gibt diese Funktion gegenüber der Librosa Implemntierung zusätzliche die Variable db_vals zurück.
[3] M. Mauch and S. Dixon, "PYIN: A fundamental frequency estimator using probabilistic threshold distributions," 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014, pp. 659-663, doi: 10.1109/ICASSP.2014.6853678. Available: https://www.eecs.qmul.ac.uk/~simond/pub/2014/MauchDixon-PYIN-ICASSP2014.pdf