Qarnot
The Editorial Team at Qarnot.

Les data scientists sauveront-ils le monde ?

October 12, 2021 - Machine Learning / AI, Edito

 

La science des données ou data science se trouve au croisement de différentes disciplines : les mathématiques, les statistiques, l’informatique, l’analyse de données... Elle vise à donner un sens, et parfois du sens, à des données brutes.

 

La croissance exponentielle du volume des données numériques (50 zettaoctets en 2020, soit 20 fois plus en une décennie) rend les analyses complexes impossibles par l’homme. La data science ouvre des perspectives fantastiques à qui saura interpréter et faire parler la donnée. Mais elle soulève également de nombreux questionnements, notamment éthiques - tant sur ses usages que sur son fonctionnement, et environnementaux à travers l’empreinte carbone qu’elle génère. Interview croisée de François Guillaume Fernandez, Deep Learning Engineer chargé du projet associatif et open source Pyronear et Redha Moulla, Docteur en automatique, consultant et enseignant en IA et ancien directeur du Pôle Data Science de Keley Data.

 

Quand le terme de data science est apparu en septembre 19921, il était encore difficile d’imaginer le champ des possibles. Même Cédric Villani concède2 : « Comme bien des mathématiciens débutant leur carrière dans les années 90, j’ai profondément sous-estimé l’impact de l’intelligence artificielle, qui ne donnait finalement, à cette époque, que peu de résultats. »

Trente ans plus tard, les cas d’applications et les entreprises déclarant avoir recours à l’intelligence artificielle au sens large sont légions. Le secteur de la vente de biens et services (en ligne notamment mais aussi hybride avec l’explosion du « phygital retail ») a bien identifié le formidable levier de croissance de l’exploitation des données. Moteurs de recommandations, dispositifs prédictifs de la consommation… les algorithmes ont été largement adoptés par les équipes marketing et ventes pour générer du revenu.

 

« Il y a une tendance de fond. Les jeunes data scientists ne veulent plus trop aller vers le marketing ou la finance, même si cela paye clairement mieux. Il y a derrière cela un peu l'idée de gâcher les possibilités extraordinaires [de l’IA] juste pour augmenter un taux de clics. »

 

Mais pour Redha Moulla, ces usages ne font pas rêver les jeunes générations : « Il y a une tendance de fond. Les jeunes data scientists ne veulent plus trop aller vers le marketing ou la finance, même si cela paye clairement mieux. Il y a derrière cela un peu l'idée de gâcher les possibilités extraordinaires [de l’IA] juste pour augmenter un taux de clics. »

Comme une illustration parfaite de ce propos, l’association Data For Good réunit une communauté de Data Scientists bénévoles mettant leurs compétences au profit de la résolution de problèmes sociaux. Partant du constat que, très souvent, les acteurs qui œuvrent pour l’intérêt général3 ne bénéficient pas des mêmes moyens et technologies que les startups ou géants de la tech, Data for Good propose de contribuer au rétablissement de cet équilibre. Différents projets sont donc sélectionnés pour être soutenus, comme au sein d’un accélérateur de start-ups, et tout contenu produit au sein de ces projets (code, visuels, documentation, etc.) est publié sous une licence libre pour bénéficier à la communauté.

 

Zoom sur le projet Pyronear : détection précoce d'incendies grâce au deep learning

 

C’est en participant à un Hackathon en 2018 que François Guillaume Fernandez est sensibilisé à la situation des feux de forêts. Ingénieur de formation (Centrale Supélec) et spécialiste du traitement de l’information visuelle,  il imagine alors un programme de détection de feux à partir d'anciens smartphones. Mais détourner le téléphone de son utilisation première s’avère être une solution à la fois coûteuse et compliquée à gérer techniquement. Il a donc fallu trouver une autre voie avec le coût de déploiement le plus bas possible sachant que le principe de fonctionnement de la solution se décompose en trois temps : 

  1. Couverture de la zone.
  2. Traitement de l’image. 
  3. Alerte aux pompiers en cas de détection de départ de feu. 

 

4 000. C’est le nombre d’incendies en forêt et en milieu naturel en France par an4.

 

« L'approche de la détection de feux à partir d'images n'est pas nouvelle en soi. Ce qu’on espère apporter, c'est de passer par une solution logicielle adaptée au matériel. La France est très mature sur ce sujet et la détection automatique existe déjà mais le matériel est très cher car se sont souvent des caméras infra rouges et il y a moins d'intelligence dans le traitement » précise François Guillaume Fernandez. À la question du rôle joué par les satellites, François Guillaume explique que « la détection doit être précoce pour avantager les pompiers. Les images satellite sont à la fois peu accessibles et différées d'une quinzaine de minutes en général. Mais cela peut permettre de valider les détections à posteriori ».

 

Le constat qui sous-tend le projet est qu’il est compliqué d'aller vers une solution performante, accessible et économique si l'acquisition des données elle-même n'est pas simple. Le choix du matériel s’est donc porté sur le Raspberry Pi : peu onéreux, il est également extrêmement pratique car on peut y ajouter très facilement toutes sortes de dispositifs. « D'autres organisations étudient par exemple la détection chimique des feux et l’on pourrait très bien ajouter ce module au projet. On pourrait également y ajouter un micro et, ce faisant, rattacher ce projet à Microfaune, qui évalue la biodiversité grâce au deep learning. C'est vraiment un système multimodal, une plateforme d'expérimentation » explique François Guillaume. 

 

Concrètement, le Raspberry Pi est installé sur une position qui surplombe le site observé, comme la tour de guet des pompiers. Le nombre de devices va être fonction du relief et du site. 

Une fois la question hardware réglée, l'option retenue a été celle du Deep Learning, c’est-à-dire de laisser l'algorithme choisir les caractéristiques déterminantes pour identifier le départ du feu : « On lui a montré des centaines de milliers de situations de départ de feu et c'est le modèle qui les qualifie. La première source a été Google Images mais on a rapidement vu qu'elle n'était pas assez robuste et qu'on allait créer un super détecteur de barbecues donc on a pris les images de caméras qui tournent en continu sur des sites sensibles, notamment aux Etats-Unis que l’on a labellisées nous-mêmes par la suite. »

 

Aujourd’hui, les phases de tests vont pouvoir commencer dans différents départements, à commencer par l’Ardèche, avec pour objectif de couvrir la plus grande variété de territoires et de conditions (terrain, luminosité, végétation, etc.). Tout le code du projet, qui s’est concentré sur l'intelligence de traitement et la couche logicielle, est open source. L'association Pyronear compte maintenant une trentaine de bénévoles réunissant différentes compétences et métiers (R&D, communication, UX...).

 

Un super pouvoir trop gourmand énergétiquement ?

 

La pollution numérique n’est pas toujours simple à appréhender : elle ne se voit pas et la simple notion de cloud laisse imaginer une sorte d’évaporation qui la rend encore moins tangible. L’empreinte carbone liée à l’intelligence artificielle ne fait pas exception. Redha Moulla confirme que selon lui, « l'efficacité énergétique n'est pas vraiment un enjeu aux yeux des data scientists car les calculs lourds sont envoyés dans des data centers, loin, on ne les voit pas, ça rend l'empreinte carbone très abstraite ». 

 

Il pondère néanmoins le poids de l’intelligence artificielle dans la pollution numérique en scindant deux grands types d’usage :

 

  • d’un côté, les entraînements de modèles type OpenAI qui comptent des centaines de milliards de paramètres et donc probablement des centaines de milliers de kilogrammes de CO2 : mais d’une part, très peu d’acteurs sont capables d’entraîner des modèles de cette taille, et d’autre part ces modèles sont entraînés « pour toute l’humanité » donc la mutualisation vient en compensation partielle de l’empreinte.
     
  • de l’autre, les empreintes individuelles des data scientists restent marginales,  mais vont probablement croître rapidement, à la fois parce que le nombre de data scientists augmente et que l’accès au matériel et notamment aux GPU se démocratise.

 

« Le data scientist est un peu comme un architecte qui choisirait le matériau, la performance énergétique, la consommation de son bâtiment... Parfois on peut bâtir une usine à gaz énergétique sans avoir cela en tête et en subir le coût par la suite. »

 

Une autre piste de réflexion se situe autour de la notion de sobriété technologique, plus en amont, au niveau du choix même du recours à l’intelligence artificielle comme solution la plus pertinente pour répondre à un problème donné. Si François Guillaume Fernandez définit la data science comme « une boîte de Pandore, un super pouvoir », il rappelle également que ce pouvoir induit un coût qui peut-être disproportionné par rapport aux objectifs et qu’il est important de réfléchir à un juste équilibre entre le but à atteindre et les moyens déployés pour y parvenir : « Le data scientist est un peu comme un architecte qui choisirait le matériau, la performance énergétique, la consommation de son bâtiment... Parfois on peut bâtir une usine à gaz énergétique sans avoir cela en tête et en subir le coût par la suite. »

 

On peut également souligner l’amélioration de l’efficacité énergétique des data centers dans lesquels sont hébergés les GPU. La solution la plus performante actuellement de ce point de vue est celle de sites qui valorisent la chaleur fatale des calculs comme le propose Qarnot, d’ailleurs partenaire de Data For Good : le parc de GPU est installé dans une partie inexploitée d’un entrepôt logistique du Groupe Casino, ce qui signifie, contrairement à un data center classique, qu’il n’y a pas eu de construction de bâtiment ou d’installation de réseau électrique dédiés. De plus, la chaleur produite est extraite et valorisée sur place, de façon à chauffer les entrepôts, ce qui permet même au site d’avoir une empreinte carbone négative5

 

Comment voir clair dans la boîte noire ?

 

Selon Redha Moulla, le problème éthique qui entoure l’intelligence artificielle est beaucoup plus important que l’enjeu environnemental car il n’est pas encore lisible : « les réponses apportées aujourd'hui sont techniques. On a des outils pour expliquer comment l'algorithme a pris une décision mais en réalité on ne sait pas vraiment ce qu’il a fait car la réalité est complexe, trop pour nous. Il y a probablement des tonnes d'exemples où les algorithmes se trompent et on ne le sait même pas. Pour une recommandation d'achat sur Amazon, ce n'est pas grave mais si demain on fait confiance à l'algorithme pour piloter une voiture ou un avion, l'enjeu est beaucoup plus important. La société va donc se saisir de ce débat. »

Dans son rapport sur l’intelligence artificielle, Cédric Villani rappelle également que « nous ne sommes pas tous égaux devant ces algorithmes et que leur partialité a des réelles conséquences sur nos vies. Chaque jour, dans une grande opacité, ils affectent notre accès à l’information, à la culture, à l’emploi ou encore au crédit ».

 

« La loi ne peut pas tout, entre autres car le temps du droit est bien plus long que celui du code. »

 

Alors la solution doit-elle être technique ou politique ? Redha Moulla rappelle que pour corriger un biais, il faut en introduire un autre, ce qui ne semble pas permettre d’apporter une réponse à cette question complexe. Quant au politique, Cédric Villani souligne que « la loi ne peut pas tout, entre autres car le temps du droit est bien plus long que celui du code. Il est donc essentiel que les « architectes » de la société numérique – chercheurs, ingénieurs et développeurs – qui conçoivent et commercialisent ces technologies prennent leur juste part dans cette mission en agissant de manière responsable. Cela implique qu’ils soient pleinement conscients des possibles effets négatifs de leurs technologies sur la société et qu’ils œuvrent activement à les limiter ».

 

Alors, les data scientists peuvent-ils sauver le monde ?

 

Redha Moulla le pense mais précise : « Je ne crois pas que l'on doive laisser les questions techniques aux purs techniques car ils n'ont pas le recul. Les Data Scientists peuvent sauver le monde mais pas tout seuls. En tout cas, la volonté est là.  À peu près tous les grands cabinets de conseil ont maintenant des départements liés à la « Data Science for good ». Aujourd’hui les ressources vont principalement dans le marketing et la finance mais demain, les choses vont bouger parce qu'on n'aura pas le choix. C'est déjà à l'œuvre. »

 

 

 

Le poids de l'IA : quelques exemples

 

 

  • Deep fake : la consommation électrique d’un calcul de Deep Fake de 72h (pour une image de 256 px) sur 3 RTX 2080ti et 1 AMD 2990 est d'environ 72 kWh, soit environ 21 kg CO2 eq (Mix électrique européen).
    Source: Europa.eu 

 

  • ImageNet : Pour l’entraînement du dataset d’ImageNet pour le DAWNBench, il a fallu : 

14 jours pour compléter 90-epoch ResNet-50 sur NVIDIA M40 GPU

~134 kWh de consommation électrique

~39 kg Co2 eq (mix électrique européen)

 

  • L'étude "Carbon Emissions and Large Neural Network Training" a montré que l'empreinte carbone liée à l'utilisation des modèles est a priori 9 fois plus importante que celle de l'entraînement.
    Source : Carbon_Emission_Large_NN 

 

 

Sources

 

1Le terme Data Science a été forgé lors du 2e colloque franco-japonais de statistique tenu à l'Université Montpellier II (France) en septembre 1992.

2Rapport “Donner du sens à l’intelligence artificielle” - 2017.

3Citoyens, associations, institutions publiques et entreprises à fort impact social.

4Source : Ministère de la Transition Écologique et Solidaire.

5Estimation réalisée sur le site de Réau. Récupération de la chaleur + diminution de la consommation de gaz naturel et substitution partielle par de l’électricité bas carbone.

Share on networks