Séparation de sources sonores par factorisation en matrices positives.
-
TypeDoctorat
-
Mots-clésséparation de sources, factorisation en matrices positives, classification d’instruments
Description
A partir d’un enregistrement constitué d’un mélange de plusieurs signaux sonores, la séparation de sources consiste à estimer de façon univoque chacune des sources. Dans le cadre de cette thèse, les enregistrements contiennent divers instruments de musique et il s’agira soit d’identifier les parties où un instrument joue en solo, soit de séparer ces instruments lorsqu’ils jouent simultanément. Nous proposons d’étudier comme outil pour la séparation de sources la factorisation en matrices positives ou nonnegative matrix factorization (NMF). A partir d’une matrice M(m×n) dont les entrées sont positives (le mélange de sources) et d’un rang de factorisation r (le nombre de sources), la NMF a pour but de calculer deux matrices positives U(m×r) et V(r×n) telles que le produit UV est le plus proche possible de M. Les matrices U et V permettent alors d’estimer les contributions des diverses sources [1, 2, 3]. Nous étudierons en particulier les effets de la NMF sur la distorsion des sources après séparation.
[1] Cichocki, A., Zdunek, R., Phan, A. H., & Amari, S. I. (2009). Nonnegative matrix and tensor factorizations: applications to exploratory multi-way data analysis and blind source separation. John Wiley & Sons.
[2] Schmidt, M. N., & Olsson, R. K. (2006). Single-channel speech separation using sparse non-negative matrix factorization. In ISCA International Conference on Spoken Language Proceesing, (INTERSPEECH).
[3] Févotte, C., Bertin, N., & Durrieu, J. L. (2009). Nonnegative matrix factorization with the Itakura-Saito divergence: With application to music analysis. Neural computation, 21(3), 793-830.