Apprentissage pour identification de groupes d'intérêt sur réseau socio-transactionnel
Il s'agit d'une thèse CIFRE avec Orange, sur les données socio-transactionnelles du service Orange Money. La thèse a pour but l'exploitation de techniques d'apprentissage machine pour la caractérisation d'élements dans un graphe. L'objectif final est d'énumérer des groupes d'intérêts similaires à nos exemples.
Avec l'augmentation du nombre de smartphones et la faible bancarisation en Afrique, les services de paiement mobile connaissent une croissance importante. Les méthodes traditionnelles de détection de fraudes ne suffisent plus. La mise en œuvre de l'analyse de graphes sur les données transactionnelles permet d'identifier des schémas de comportement suspects, ce qui permet non seulement de prévenir les pertes financières, mais aussi d'économiser des ressources considérables.
Ma thèse se concentre sur l'énumération des sous-graphes d'intérêt (SGI), qui peuvent révéler des schémas de comportement spécifiques. L'objectif principal de ce travail de thèse est d'aider Orange à utiliser cette notion de SGI pour désigner des groupes d'utilisateurs impliqués dans des activités frauduleuses. Cependant, plusieurs contraintes doivent être prises en compte dans ce contexte :
- Exemples limités : Nous ne disposons que de très peu d'exemples de groupe d'utilisateurs impliqués dans des activités frauduleuses, ce qui complique l'apprentissage et la détection de ces structures ;
- Volume de données : Orange gère des millions d'utilisateurs et des milliards de transactions, ce qui nécessite des méthodes efficaces pour traiter un volume de données aussi important ;
- Rapidité d'exécution : Le processus de détection doit être rapide afin de minimiser les pertes financières potentielles dues à la fraude.
Pour détecter ces SGI, des algorithmes de détection de communautés sont utilisés. Ils permettent d'identifier des groupes de nœuds fortement interconnectés. Ces communautés détectées sont ensuite triées pour ne conserver que celles qui sont les plus susceptibles de correspondre à un SGI. Cette sélection est basée sur une caractérisation des communautés et une distance cosinus, qui mesure la similarité entre les vecteurs représentant les caractéristiques des communautés. La confidentialité est aussi une contrainte, notamment en ce qui concerne le Règlement Général sur la Protection des Données (GDPR). En raison de cette réglementation, nous n'avons pas accès aux données réelles des utilisateurs. Pour contourner ce problème, nous avons généré des jeux de données synthétiques qui imitent les comportements humains, permettant ainsi de simuler des transactions dans un service bancaire. Grâce à ces jeux de données, nous connaissons la vérité terrain, ce qui nous permet d'évaluer l'efficacité de nos méthodes d'énumération de SGI.
L'évaluation des résultats repose sur la comparaison et l'établissement d'une éventuelle correspon- dance entre deux sous-graphes. Dans un contexte industriel, il n'est pas nécessaire d'avoir une correspondance exacte entre les sous-graphes. Ce qui est recherché, c'est une indication d'une proximité minimale avec nos exemples de SGI, afin qu'un expert en fraude puisse examiner les cas suspects. Pour cela, une marge d'erreur est définie sous la forme de trois seuils :
- Nœuds manquants : Le SGI ne doit pas manquer un nombre excessif de nœuds par rapport aux SGI exemples ;
- Nœuds supplémentaires : Le SGI ne doit pas contenir un nombre excessif de nœuds supplémentaires qui ne correspondent pas aux SGI exemples ;
- Taille appropriée : La taille du SGI détecté doit être comparable à celle des exemples.
Ces seuils permettront de filtrer les résultats et de fournir des indications utiles aux experts en fraude, tout en respectant les contraintes de confidentialité et en tenant compte des limitations des données disponibles.