De nombreux scénarios impliquent la représentation des données sous forme de tableaux multidimensionnels appelés tenseurs, il est donc crucial de prendre en compte cette structure lors de l'analyse des données. La malédiction de la dimensionnalité est un problème associé aux tenseurs d’ordre élevé et qui fait référence à l'augmentation exponentielle des coûts de traitement et de stockage. Par conséquent, les décompositions tensorielles sont cruciales pour réduire la complexité du stockage de tenseurs sans sacrifier leur multidimensionnalité. La décomposition canonique polyadique (CP) est la décomposition de tenseurs la plus couramment utilisée car elle permet la représentation des tenseurs en tant que composants interprétables (tenseurs de rang 1). Il est cependant difficile de déterminer le nombre exact de composants de ce modèle, ce qui constitue sa limite la plus importante. Pour cela, la première partie de cette thèse propose une méthode basée sur l'optimisation convexe pour estimer conjointement les facteurs CP et le rang canonique appelée FARAC (Joint FActors and RANk canonical estimation). La méthode FARAC est formulée comme un problème d'optimisation convexe dans lequel une contrainte de parcimonie est rajoutée à la superdiagonale du tenseur central de la CP, tandis que la norme de Frobenius des termes hors diagonaux est contrainte d'être bornée. Une stratégie de minimisation alternée du Lagrangien est ensuite proposée pour résoudre le problème d'optimisation. La deuxième partie de cette thèse portera sur l'apprentissage automatique pour les données tensorielles. Les algorithmes d'apprentissage automatique utilisent souvent des mesures de similarité pour effectuer des tâches supervisées et non supervisées, telles que la classification et le regroupement. La similarité peut être déterminée à l'aide des méthodes à noyau, qui sont populaires en raison de leurs performances dans une variété d'algorithmes d'apprentissage. Tout d'abord, une méthode proposant un noyau tensoriel basé sur l'extraction de facteurs à partir de la CP est analysée. Il est ensuite démontré que celle-ci ne satisfait pas théoriquement les propriétés d'une fonction noyau à cause de l'ambiguïté de mise à l'échelle de la CP. Celle-ci affecte négativement ses performances de classification. En modifiant le choix du noyau basé sur la géométrie Grassmannienne, il est démontré que les performances de classification peuvent être améliorées. Pour casser la malédiction de la dimensionnalité, la décomposition en trains de tenseurs (TTD) qui bénéficie de bonnes propriétés de stabilité serait utilisée pour définir une nouvelle fonction noyau dans l’espace tensoriel. Comme les cœurs TT sont les éléments constitutifs de la TTD, la fonction noyau proposée entre deux tenseurs est définie en fonction des similitudes entre leurs coeurs TT respectifs. Comme la TTD n'est pas unique, les sous-espaces engendrés par les cœurs TT seront considérés. Ceux-ci sont définis à l'aide de l'algèbre linéaire des tenseurs d'ordre 3. Alors que certaines des ambiguïtés ont été éliminées, d'autres existent toujours. Alors, une autre fonction noyau serait proposée qui définit les similitudes entre les cœurs TT sur la base des sous-espaces engendrés par leurs deuxième dépliements . En plus d'être efficace numériquement, cette approche éliminera toutes les ambiguïtés associées au modèle TT.
M. Rémy BOYER Université de Lille Directeur de thèse M. David BRIE Université de Lorraine Rapporteur M. Guillaume GINOLHAC Université Savoie Mont-Blanc Rapporteur Mme Nadège THIRION-MOREAU Université de Toulon Examinatrice M. Jérémie BOULANGER Université de Lille Examinateur M. Nicolas GILLIS Université de Mons Examinateur
Thèse de l'équipe SIGMA soutenue le 09/12/2022