Soutenance publique de la thèse de Doctorat de M.Omar SEDDATI

Reconnaissance et Recherche de données Multimédia par les Réseaux de Neurones Profonds

Promoteur : Prof. Saïd Mahmoudi

Résumé :

Cette thèse porte sur l’amélioration de la reconnaissance et de la recherche de données multimédia. Contrairement aux approches classiques basées sur des caractéristiques conçues manuellement, nous utilisons des modèles d’apprentissage automatique pour l’extraction des caractéristiques. Ces modèles se basent sur des échantillons pour apprendre à extraire automatiquement les caractéristiques les plus pertinentes.
Dans cette thèse, nous avons utilisé trois types de données multimédias : les esquisses (sous forme de traits noirs sur un arrière-plan blanc), les images et les vidéos. Nous nous sommes inspirés des solutions proposées dans le domaine de la reconnaissance d’images et de vidéos pour améliorer la reconnaissance d’esquisses. Cela nous a permis d’introduire le premier reconnaisseur d’esquisse à avoir dépassé les performances humaines sur un benchmark à grande échelle, TU-Berlin. Nous avons continué à améliorer ce modèle pour maintenir les meilleurs résultats de l’état de l’art. Nous avons également proposé le premier réseau de neurones convolutionnels (ConvNet) pour la reconnaissance d’esquisses partielles.
En ce qui concerne la recherche de données multimédia, nous avons traité l’amélioration des modes de formulation de requête par esquisses et par images :
– La recherche d’images basée sur les esquisses (SBIR) : ce mode de formulation de requête permet à l’utilisateur de décrire l’objet de la recherche en utilisant un dessin à la main. Ceci peut s’avérer très utile dans certains cas où la requête présente de nombreux détails spatiaux qui complexifient la description à l’aide de mots-clés. Afin de développer des solutions SBIR efficaces, il faut faire face aux difficultés liées à la nature cross-modale du problème. Nous avons proposé principalement deux solutions pour traiter ces difficultés : les réseaux Quadruplets et les réseaux Triplets avec un modèle d’attention. Nous avons utilisé trois benchmarks à grande échelle pour évaluer nos solutions : Sketchy, TU-Berlin SBIR et Flickr15k. Nous avons obtenu les meilleurs résultats pour les deux premiers benchmarks et le deuxième meilleur résultat pour le dernier.
– La recherche d’images basée sur le contenu (CBIR) : dans ce type de recherche, une image est utilisée comme exemple pour trouver des images similaires. Nous avons opté pour une méthode basée sur l’utilisation de modèles pré-entraînés pour la reconnaissance d’objets. Nous avons proposé des améliorations qui n’impliquent pas de finetuning de modèle et nous avons obtenu les meilleurs résultats de l’état de l’art pour ce genre d’approche (sans finetuning). Nous avons évalué notre solution en utilisant quatre benchmarks : Holidays dataset, UKB, Oxford5k et Paris6k.
Enfin, nous avons également contribué au système de recherche de vidéos IMOTION qui a remporté le challenge VBS 2017. Ce système permet l’utilisation des modes de requêtes cités précédemment, ainsi que l’utilisation de mots-clés. Nous avons entraîné plusieurs reconnaisseurs (reconnaissance d’objets, environnements, actions dans les vidéos) pour utiliser la richesse des informations présentes dans ce type de données multimédia. Nous avons aussi utilisé les reconnaisseurs résultants pour l’extraction de caractéristiques spatiales et temporelles. Pour le développement des solutions à intégrer dans le système IMOTION, nous avons utilisé les benchmarks les plus utilisés dans chaque domaine : ImageNet pour la reconnaissance d’objets, Places205 pour la reconnaissance d’environnements, HMDB51 et UCF101 pour la reconnaissance d’actions.