Par Edouard Beaucourt, Country Manager France & VP Southern Europe de Snowflake
L’apprentissage automatique est actuellement à l’origine d’une véritable révolution dans le monde de l’IA. Quand il s’agit de data science, les entreprises récoltent autant de données que possible, et font maintenant appel à la technologie d’apprentissage machine (ML) pour analyser les informations plus rapidement et avec précision. Cette démocratisation de la capacité d’apprentissage automatique pour l’analyse des données représente aujourd’hui une véritable opportunité pour les entreprises de toutes tailles. En effet, les outils comme AutoML peuvent permettre aux entreprises d’utiliser plus efficacement leurs données en temps réel sans avoir à constituer des équipes spécialisées de Data Scientists dans les années à venir.
Dans ce contexte, les organisations, quelles que soient leurs tailles, doivent rester vigilantes pour s’assurer que les biais potentiels encodés directement dans les algorithmes de ML n’interfèrent pas avec la qualité des données analysées. En effet, la manipulation de données biaisées est une question sensible qui a des implications considérables pour les entreprises, tant en termes de stratégie commerciale que de considérations éthiques.
Afin de remédier à ce déséquilibre possible et cultiver un environnement de données éthique et sain, les entreprises doivent s’attaquer à des difficultés technologiques et humaines d’envergure. Tout d’abord, il est nécessaire de créer un environnement qui permette d’offrir une vision efficace et précise des données ainsi que la possibilité de prendre une décision basée sur un contexte correspondant aux besoins spécifiques de l’organisation. Pour y arriver, voici cinq pistes à considérer :
Miser sur l’intelligence humaine pour trouver les erreurs et y remédier. La composition des équipes de data science est au cœur de la recherche d’équilibre et d’éthique. Le Seigneur de La Palice n’aurait certainement pas pu mieux le dire. Cette évidence peut paraître simpliste mais à l’ère de l’accélération du tout IA, ce principe de base me semble essentiel. Tout d’abord, le premier défi consiste à constituer une équipe et l’expertise capables d’examiner les algorithmes, les données, les conclusions et les résultats de manière juste, objective et équitable. Pour s’assurer de minimiser toute erreur du Machine Learning, les entreprises doivent vérifier qu’elles disposent d’un jeu de données suffisamment large pour ne pas influencer le résultat. L’enjeu est de pouvoir élargir son champ de vision en exploitant des ensembles de données variés. En plus d’ingérer des vastes quantités de données internes, les organisations peuvent aussi tirer parti d’informations tierces issues de différentes sources externes et de différents marchés. En collectant et en analysant des informations provenant à la fois de leurs concurrents et du marché extérieur, les entreprises réduisent ainsi significativement les risques associés aux biais subjectifs que peuvent renfermer les algorithmes.
La diversification de la main-d’œuvre est donc une nécessité absolue dans la recherche de traitement de data qui ne soit pas biaisé. Pour ne pas s’enfermer dans un prisme restreint, les entreprises doivent prendre en compte la diversité de leurs employés pour garantir que leurs algorithmes soient non seulement précis, mais également inclusifs. Cela nécessite une attention aux différences telles que l’expérience professionnelle, les antécédents socio-économiques et ethniques ainsi qu’au genre des collaborateurs. Si les algorithmes d’apprentissage automatique sont créés sans tenir compte de cette notion de diversité, les entreprises risquent de fausser par inadvertance leurs données et d’obtenir des résultats qui ne reflètent pas la réalité. Ainsi, la diversification de la main-d’œuvre est une étape cruciale vers un environnement éthique pour l’analyse et les données de l’apprentissage automatique.
Pour prévenir tout biais potentiel durant la collecte et l’analyse des données, débugger les biais subjectifs que peuvent créer les algorithmes et diversifier la collecte des data, les organisations qui souhaitent s’assurer que leurs informations reflètent la réalité de leur contexte et restent fiables, ont aussi besoin de protéger leurs données avec la mise en place d’un comité d’éthique. Ce groupe doit avoir pour mission de vérifier les résultats en toute objectivité afin qu’un bon équilibre entre données et valeurs soit maintenu. Les cadres d’évaluation assurent que les algorithmes, données, déductions et résultats sont fabriqués de façon impartiale.
Alors que la data science a une influence grandissante sur l’évolution de notre société et de notre culture, nous sommes clairement aujourd’hui à une croisée de chemins. Pour les entreprises, les enjeux sont de taille. La compétitivité passe par la capacité de tirer toute la valeur possible des données en temps réel et de la façon la plus objective et précise possible. Les organisations qui souhaitent réellement se débarrasser des erreurs d’encodage de leurs algorithmes d’apprentissage automatique doivent adopter une approche où l’intelligence artificielle est guidée par le savoir-faire humain. Seulement ainsi pourront-elles tirer pleinement parti de leurs données et créer un environnement éthique data science offrant des perspectives pertinentes, exactes, responsables et fiables.