Accueil Internet Filtrage d’URL : Olfeo optimise sa classification grâce à l’IA

Filtrage d’URL : Olfeo optimise sa classification grâce à l’IA

Alexandre Souillé dirigeant Olfeo
Alexandre Souillé, président et fondateur d'Olfeo

Reposant sur sa technologie Trust-Centric, le proxy web de l’éditeur n’autorise l’accès qu’aux sites de confiance. Face à l’augmentation du nombre de domaines créés, il envisage un recours accru à l’IA et au machine learning pour favoriser la classification automatique de certains contenus.

Chaque mois, 70 millions de nouveaux domaines sont créés dans le monde dont 13 millions seraient malicieux. Face à cette menace, comment naviguer en toute sécurité sur la Toile ? Président-fondateur d’Olfeo, numéro un du proxy web en France, Alexandre Souillé a sa petite idée. Il propose une approche radicalement différente de celle du marché. « La plupart des solutions cyber laissent passer les flux et tentent de détecter les menaces en consultant une base de signatures ou en faisant appel à l’analyse comportementale. Elles acceptent tout par défaut et bloquent a posteriori ».

20 ans d’analyse des contenus web

Les hackers ont bien identifié le mode de fonctionnement de ces solutions historiques et massifient leurs attaques pour les submerger. « Quelque 400 000 malwares sont créés chaque jour », rappelle Alexandre Souillé. A l’inverse, la protection proposée par Olfeo repose sur le principe de confiance. Sa technologie Trust-Centric consiste à autoriser les seuls URLs de confiance. Le collaborateur n’accède qu’aux sites web considérés comme légitimes.

Pour établir cette liste blanche, l’éditeur revendique un historique de 20 ans d’analyse des contenus web. Ce qui lui permet de réduire les cas de faux positifs avec un taux de reconnaissance de 99,6 %. Depuis sa console, une entreprise peut aussi personnaliser cette liste en introduisant des exceptions.

Au fil du temps, Olfeo a ainsi constitué une base de plus de 20 millions de domaines, correspondant à des centaines de millions d’URLs. Il comprend des sites dangereux, terroristes ou pédopornographiques. « La communauté de nos clients remonte, par ailleurs, quotidiennement des adresses de sites illicites », poursuit Alexandre Souillé.

Combiner machine learning et approche humaine

Pour peaufiner sa classification, Olfeo poursuit une double approche. L’éditeur intègre des techniques de machine learning tout en laissant l’humain garder la main sur le classement final. L’approche actuelle est ainsi basée sur un pré-classement par mots-clés, quand cela est possible, avec une validation manuelle systématique. Si cette méthode permet d’atteindre une qualité de classement inégalée, la croissance exponentielle de nouveaux domaines nécessite de la renforcer.

Avec l’augmentation de la précision de classification automatique, Olfeo envisage, dans un futur proche, de procéder à une validation automatique sur certains types de contenus. L’éditeur a participé, à cet effet, au projet METIS. Soutenu par l’Agence Innovation Défense du ministère des Armées et la Direction Générale de l’Armement (DGA), il était doté d’un budget d’un million d’euros, co-financé par le dispositif RAPID (Régime d’Appui à l’Innovation Duale).

Lancé en 2020 pour une durée de trois ans, ce projet visait à implémenter des algorithmes d’IA et de machine learning pour améliorer les performances des outils de classification internes d’Olfeo. Avec l’Université de Reims Champagne-Ardenne et le laboratoire d’informatique de l’Université Grenoble Alpes comme partie prenantes, le projet a associé l’analyse et le classement sémantique, la mise en place de processus automatisés de traitement et l’entrainement de modèles de machine learning avec les données existantes d’Olfeo.

Le projet a abouti au déploiement d’un modèle d’apprentissage profond (deep learning) qui a permis d’optimiser le taux de reconnaissance des contenus. En identifiant la catégorie à associer à une URL sur la base de l’analyse du contenu de la page web, la pertinence de la classification a pu être améliorée jusqu’à 30 % sur certains types de contenus.

 

Xavier Biseul