Accès restreint

Note préparée pour Movinmotion

Mot de passe incorrect

Consommation énergétique de l'IA

Ce que disent les chiffres — note factuelle
Alexis Laporte · Mars 2026 · Mission Movinmotion
Note préparée dans le cadre de la mission Movinmotion pour éclairer la question de l'impact environnemental de l'adoption d'outils IA.

1. Combien consomme une requête IA ?

Les chiffres réels publiés en 2025 sont très différents des estimations alarmistes de 2023.

ServiceÉnergie par requête texteSource
Google Search (classique)~0.3 WhGoogle (2009)
Google Gemini (texte)0.24 WhGoogle Cloud Blog, août 2025
ChatGPT (GPT-4o, texte)0.34 WhSam Altman, juin 2025
Claude Haiku (petit modèle)~0.22 WhEstimation energycosts.co.uk
Claude Opus (gros modèle)~4 WhEstimation, réponses longues
Génération d'image0.3–1.2 WhHannah Ritchie / MIT Tech Review
Génération vidéo (Sora, 5s)~1 000 WhMIT Tech Review
L'idée que "ChatGPT consomme 10x plus qu'une recherche Google" est obsolète. Elle reposait sur une estimation de 2023 (3 Wh/requête). Les chiffres réels de 2025 montrent que requête texte IA ≈ recherche Google classique.

Les requêtes longues (100k tokens) peuvent monter à ~40 Wh, mais ce sont des cas exceptionnels.

2. Ce que ça représente concrètement

ActivitéÉnergie
1 requête ChatGPT0.34 Wh = un four allumé pendant 1 seconde
1 heure de Netflix77–240 Wh
1 requête IA= 5 à 10 secondes de streaming Netflix
1 email~0.004 Wh
1 transaction Bitcoin~1 335 000 Wh (1 335 kWh)

Et le PC du développeur ?

Un laptop de développeur (type Intel i7-13850HX, 32 Go RAM) consomme ~46 W en charge. En une journée de 8h, c'est 368 Wh — soit l'équivalent de ~1 000 requêtes IA.

Le PC qui envoie les requêtes consomme beaucoup plus que les requêtes elles-mêmes. Un développeur qui code 8h consomme côté poste de travail autant d'énergie que s'il posait 1 000 questions à Claude.

Et quand ce PC fait tourner de l'IA agentique en local (RAM saturée, swap actif, CPU à fond), sa consommation monte à 60-80 W — soit encore plus. L'ironie : faire tourner l'IA côté serveur (cloud) est souvent plus efficace énergétiquement que de la faire tourner en local, car les data centers utilisent du matériel spécialisé (GPU/TPU) avec un bien meilleur rendement par calcul.

À l'échelle d'une entreprise

Un employé faisant 50 requêtes IA/jour consomme ~17 Wh côté serveur, soit :

Une équipe de 50 personnes utilisant l'IA intensivement (50 requêtes/jour chacune) = 850 Wh/jour côté serveur. La même équipe consomme ~18 400 Wh/jour rien qu'avec ses postes de travail. L'IA ajoute moins de 5% à l'empreinte IT existante.

3. Le tableau global : data centers et IA

AnnéeData centers (mondial)% électricité mondialePart IA
2024~415 TWh~1.5%~14%
2026 (proj.)>500 TWh~2%~40%
2030 (proj.)~945 TWh~3%

L'IA est un facteur de croissance des data centers, mais ceux-ci restent une fraction modeste de la consommation mondiale (1.5 à 3%). Pour comparaison, le Bitcoin seul consomme 155–175 TWh/an.

4. Les modèles deviennent drastiquement plus efficaces

C'est le point le plus important et le moins médiatisé.

L'efficacité par requête s'améliore plus vite que la loi de Moore classique. Mais la consommation totale augmente quand même (paradoxe de Jevons : l'efficacité stimule l'adoption).

5. L'empreinte carbone dépend surtout du fournisseur

La même requête peut avoir une empreinte carbone 10 à 50x différente selon le data center qui la traite.

FournisseurÉnergie renouvelableTendance émissions
Google (héberge Claude via GCP)>8 GW de contrats clean energy en 2024, 9/20 régions >80% carbon-free+50% sur 5 ans
AWS (héberge aussi Claude)Objectif 100% renouvelable en 2025, plus gros acheteur corporateEn progression
Anthropic (Claude)S'engage à couvrir 100% des coûts d'upgrade réseauPas de rapport publié
Microsoft19 GW contracté en 2024, conso ×3 depuis 2020+23% depuis 2020
Recommandation pratique : le choix du fournisseur et de la région cloud a plus d'impact que le nombre de requêtes. Un data center nordique sur hydro/éolien est 10-50x moins carboné qu'un data center alimenté au charbon.

6. Entraînement vs utilisation

L'entraînement d'un modèle est un investissement ponctuel. L'inférence (utilisation quotidienne) domine largement :

Pour une entreprise utilisatrice, seule l'inférence compte — et elle est négligeable à l'échelle d'une PME.

7. Synthèse

QuestionRéponse
L'IA consomme-t-elle beaucoup ?Par requête : autant qu'une recherche Google. Par employé : négligeable.
C'est pire que le streaming ?Non. 50 requêtes IA = 5 minutes de Netflix.
Les modèles s'améliorent ?Oui, très vite. 10 à 33x plus efficaces en 1-2 ans.
Le vrai levier carbone ?Le choix du fournisseur cloud et de la région, pas le nombre de requêtes.
Le risque est-il macro ou micro ?Macro : la croissance globale des data centers est réelle (×2 d'ici 2030). Micro : l'impact d'une PME qui adopte l'IA est imperceptible.
Conclusion : adopter des outils IA a un impact énergétique comparable à augmenter légèrement le nombre de recherches Google de l'équipe. Le vrai enjeu environnemental du numérique reste les terminaux (fabrication), les réseaux, et le streaming vidéo — pas l'IA conversationnelle.

8. Ce que dit la recherche académique

Benchmarks d'énergie par modèle (Jegham et al., 2025)

L'étude "How Hungry is AI?" (Université de Rhode Island, arXiv:2505.09598) a mesuré 30 modèles en conditions réelles via les API publiques :

ModèleÉnergie/requêteNote
LLaMA-3.1-8B0.44 WhModèle léger, le plus efficient
GPT-4.1 nano0.83 WhPetit modèle OpenAI
GPT-4o~1.5 WhModèle standard
DeepSeek-R1 (Azure)7.4 WhRaisonnement avancé, infra optimisée
o3 (OpenAI)12.2 WhRaisonnement avancé
DeepSeek-R1 (serveurs natifs)29 WhMême modèle, infra moins efficace
Conclusion clé : l'infrastructure compte autant que le modèle. DeepSeek-R1 consomme 4x moins sur Azure que sur ses propres serveurs — une réduction de 70% par le seul choix d'hébergement.

Mesure au niveau du token (TokenPowerBench, Texas Tech, 2025)

L'empreinte individuelle est négligeable (Hannah Ritchie, 2025)

Analyse de cycle de vie d'un modèle IA — Mistral / Carbone 4 / ADEME (juillet 2025)

Mistral AI a publié la première ACV complète d'un modèle de langage, réalisée avec Carbone 4 et l'ADEME, conforme aux normes ISO 14040/44 et au GHG Protocol.

IndicateurPar requête (400 tokens)Total modèle (Large 2, 123B)
Émissions CO21.14 g CO2e20 400 t CO2e
Eau consommée45 ml281 000 m³
Épuisement ressources0.16 mg Sb eq660 kg Sb eq
Impact proportionnel à la taille du modèle : un modèle 10x plus gros = impact ~10x plus grand. Recommandation : choisir le modèle adapté à la tâche. C'est l'étude la plus rigoureuse publiée à ce jour — aucun autre fournisseur (OpenAI, Anthropic, Google) n'a publié d'ACV aussi complète.

Autres études clés

9. Benchmark local — IA sur un laptop

Test réalisé sur un Intel i7-13850HX (28 threads, 32 Go RAM), avec des modèles open-source tournant en local via Ollama. Mesure via compteurs Intel RAPL (Running Average Power Limit) — ce sont des compteurs hardware intégrés au processeur qui mesurent l'énergie réellement consommée par le CPU en microjoules. C'est la mesure la plus fiable possible sans wattmètre externe.

Prompt de test : "Explique en 3 paragraphes ce qu'est la paie des intermittents du spectacle en France, avec les spécificités des conventions collectives et des organismes comme Audiens et les Congés Spectacles."

Réponse directe (sans raisonnement)

Qwen 3.5 — 9B paramètres (6.6 Go)

11s
Durée
27 W
Puissance CPU
0.08 Wh
Énergie totale
0.04 Wh
Surplus inférence

GLM-4.7 Flash — ~30B paramètres (19 Go)

24s
Durée
41 W
Puissance CPU
0.28 Wh
Énergie totale
0.18 Wh
Surplus inférence

Avec raisonnement interne ("thinking")

Les mêmes modèles en mode raisonnement (réflexion silencieuse avant de répondre) :

Qwen 3.5 — 9B (thinking)

81s
Durée
26 W
Puissance CPU
0.59 Wh
Énergie totale
0.29 Wh
Surplus inférence

GLM-4.7 Flash — ~30B (thinking)

108s
Durée
51 W
Puissance CPU
1.53 Wh
Énergie totale
0.85 Wh
Surplus inférence
Le mode "thinking" (raisonnement) multiplie l'énergie par 5 à 7x pour la même question. C'est l'équivalent local de la différence entre un modèle standard et un modèle de raisonnement (o3, DeepSeek-R1) côté cloud.
À retenir : faire tourner un modèle IA localement sur un laptop consomme 1 à 3 Wh par requête (selon la taille du modèle), pour un résultat incomparablement moins bon qu'un modèle cloud (9-30B vs 400B+ paramètres). Le cloud avec du matériel spécialisé est plus efficient et plus performant.

Sources