Consommation énergétique de l'IA

Ce que disent les chiffres — note factuelle

Alexis Laporte · Mars 2026 · Mission Movinmotion

Note préparée dans le cadre de la mission Movinmotion pour éclairer la question de l'impact environnemental de l'adoption d'outils IA.

1. Combien consomme une requête IA ?

Les chiffres réels publiés en 2025 sont très différents des estimations alarmistes de 2023.

Service	Énergie par requête texte	Source
Google Search (classique)	~0.3 Wh	Google (2009)
Google Gemini (texte)	0.24 Wh	Google Cloud Blog, août 2025
ChatGPT (GPT-4o, texte)	0.34 Wh	Sam Altman, juin 2025
Claude Haiku (petit modèle)	~0.22 Wh	Estimation energycosts.co.uk
Claude Opus (gros modèle)	~4 Wh	Estimation, réponses longues
Génération d'image	0.3–1.2 Wh	Hannah Ritchie / MIT Tech Review
Génération vidéo (Sora, 5s)	~1 000 Wh	MIT Tech Review

  L'idée que "ChatGPT consomme 10x plus qu'une recherche Google" est obsolète. Elle reposait sur une estimation de 2023 (3 Wh/requête). Les chiffres réels de 2025 montrent que requête texte IA ≈ recherche Google classique.

Les requêtes longues (100k tokens) peuvent monter à ~40 Wh, mais ce sont des cas exceptionnels.

2. Ce que ça représente concrètement

Activité	Énergie
1 requête ChatGPT	0.34 Wh = un four allumé pendant 1 seconde
1 heure de Netflix	77–240 Wh
1 requête IA	= 5 à 10 secondes de streaming Netflix
1 email	~0.004 Wh
1 transaction Bitcoin	~1 335 000 Wh (1 335 kWh)

Et le PC du développeur ?

Un laptop de développeur (type Intel i7-13850HX, 32 Go RAM) consomme ~46 W en charge. En une journée de 8h, c'est 368 Wh — soit l'équivalent de ~1 000 requêtes IA.

Le PC qui envoie les requêtes consomme beaucoup plus que les requêtes elles-mêmes. Un développeur qui code 8h consomme côté poste de travail autant d'énergie que s'il posait 1 000 questions à Claude.

Et quand ce PC fait tourner de l'IA agentique en local (RAM saturée, swap actif, CPU à fond), sa consommation monte à 60-80 W — soit encore plus. L'ironie : faire tourner l'IA côté serveur (cloud) est souvent plus efficace énergétiquement que de la faire tourner en local, car les data centers utilisent du matériel spécialisé (GPU/TPU) avec un bien meilleur rendement par calcul.

À l'échelle d'une entreprise

Un employé faisant 50 requêtes IA/jour consomme ~17 Wh côté serveur, soit :

Moins que 5 minutes de Netflix
L'équivalent de laisser une ampoule LED allumée 1 heure
~5% de la consommation de son propre PC sur la même journée

Une équipe de 50 personnes utilisant l'IA intensivement (50 requêtes/jour chacune) = 850 Wh/jour côté serveur. La même équipe consomme ~18 400 Wh/jour rien qu'avec ses postes de travail. L'IA ajoute moins de 5% à l'empreinte IT existante.

3. Le tableau global : data centers et IA

Année	Data centers (mondial)	% électricité mondiale	Part IA
2024	~415 TWh	~1.5%	~14%
2026 (proj.)	>500 TWh	~2%	~40%
2030 (proj.)	~945 TWh	~3%	—

L'IA est un facteur de croissance des data centers, mais ceux-ci restent une fraction modeste de la consommation mondiale (1.5 à 3%). Pour comparaison, le Bitcoin seul consomme 155–175 TWh/an.

4. Les modèles deviennent drastiquement plus efficaces

C'est le point le plus important et le moins médiatisé.

Google Gemini : 33x moins d'énergie par requête entre mai 2024 et mai 2025 (architecture mixture-of-experts, décodage spéculatif, TPUs optimisés). Réduction carbone de 44x.
ChatGPT : estimé à 3 Wh/requête en 2023, mesuré à 0.34 Wh en 2025 — ~10x d'amélioration en 2 ans.
Inférence locale : gain d'efficacité de 5.3x entre 2023 et 2025 (3.1x modèles + 1.7x matériel).
GPUs : 100x plus de calculs par watt qu'en 2008.

L'efficacité par requête s'améliore plus vite que la loi de Moore classique. Mais la consommation totale augmente quand même (paradoxe de Jevons : l'efficacité stimule l'adoption).

5. L'empreinte carbone dépend surtout du fournisseur

La même requête peut avoir une empreinte carbone 10 à 50x différente selon le data center qui la traite.

Fournisseur	Énergie renouvelable	Tendance émissions
Google (héberge Claude via GCP)	>8 GW de contrats clean energy en 2024, 9/20 régions >80% carbon-free	+50% sur 5 ans
AWS (héberge aussi Claude)	Objectif 100% renouvelable en 2025, plus gros acheteur corporate	En progression
Anthropic (Claude)	S'engage à couvrir 100% des coûts d'upgrade réseau	Pas de rapport publié
Microsoft	19 GW contracté en 2024, conso ×3 depuis 2020	+23% depuis 2020

Recommandation pratique : le choix du fournisseur et de la région cloud a plus d'impact que le nombre de requêtes. Un data center nordique sur hydro/éolien est 10-50x moins carboné qu'un data center alimenté au charbon.

6. Entraînement vs utilisation

L'entraînement d'un modèle est un investissement ponctuel. L'inférence (utilisation quotidienne) domine largement :

>90% de l'énergie lifecycle d'un modèle est de l'inférence (AWS Research)
Entraînement GPT-4 : ~1 750 MWh (= 160 foyers US pendant 1 an)
Mais ChatGPT sert ~2.5 milliards de requêtes/jour : l'inférence dépasse l'entraînement en quelques semaines

Pour une entreprise utilisatrice, seule l'inférence compte — et elle est négligeable à l'échelle d'une PME.

7. Synthèse

Question	Réponse
L'IA consomme-t-elle beaucoup ?	Par requête : autant qu'une recherche Google. Par employé : négligeable.
C'est pire que le streaming ?	Non. 50 requêtes IA = 5 minutes de Netflix.
Les modèles s'améliorent ?	Oui, très vite. 10 à 33x plus efficaces en 1-2 ans.
Le vrai levier carbone ?	Le choix du fournisseur cloud et de la région, pas le nombre de requêtes.
Le risque est-il macro ou micro ?	Macro : la croissance globale des data centers est réelle (×2 d'ici 2030). Micro : l'impact d'une PME qui adopte l'IA est imperceptible.

Conclusion : adopter des outils IA a un impact énergétique comparable à augmenter légèrement le nombre de recherches Google de l'équipe. Le vrai enjeu environnemental du numérique reste les terminaux (fabrication), les réseaux, et le streaming vidéo — pas l'IA conversationnelle.

8. Ce que dit la recherche académique

Benchmarks d'énergie par modèle (Jegham et al., 2025)

L'étude "How Hungry is AI?" (Université de Rhode Island, arXiv:2505.09598) a mesuré 30 modèles en conditions réelles via les API publiques :

Modèle	Énergie/requête	Note
LLaMA-3.1-8B	0.44 Wh	Modèle léger, le plus efficient
GPT-4.1 nano	0.83 Wh	Petit modèle OpenAI
GPT-4o	~1.5 Wh	Modèle standard
DeepSeek-R1 (Azure)	7.4 Wh	Raisonnement avancé, infra optimisée
o3 (OpenAI)	12.2 Wh	Raisonnement avancé
DeepSeek-R1 (serveurs natifs)	29 Wh	Même modèle, infra moins efficace

Conclusion clé : l'infrastructure compte autant que le modèle. DeepSeek-R1 consomme 4x moins sur Azure que sur ses propres serveurs — une réduction de 70% par le seul choix d'hébergement.

Mesure au niveau du token (TokenPowerBench, Texas Tech, 2025)

La quantization FP8 réduit la consommation de ~30% vs FP16
Les moteurs optimisés (TensorRT-LLM, vLLM) réduisent l'énergie par token de 25-40%
Passer de 2K à 10K tokens en entrée triple l'énergie par token
L'architecture Mixture-of-Experts (Mixtral) atteint l'efficacité d'un 8B avec la qualité d'un 56B

L'empreinte individuelle est négligeable (Hannah Ritchie, 2025)

10 requêtes IA/jour = 0.03% de la consommation électrique quotidienne d'un Britannique
100 requêtes IA/jour = 0.3% de la consommation quotidienne
Une requête Gemini = 0.03 g CO2e (après réduction 44x en 1 an)
La génération vidéo est le vrai gouffre, pas le texte

Analyse de cycle de vie d'un modèle IA — Mistral / Carbone 4 / ADEME (juillet 2025)

Mistral AI a publié la première ACV complète d'un modèle de langage, réalisée avec Carbone 4 et l'ADEME, conforme aux normes ISO 14040/44 et au GHG Protocol.

Indicateur	Par requête (400 tokens)	Total modèle (Large 2, 123B)
Émissions CO2	1.14 g CO2e	20 400 t CO2e
Eau consommée	45 ml	281 000 m³
Épuisement ressources	0.16 mg Sb eq	660 kg Sb eq

Impact proportionnel à la taille du modèle : un modèle 10x plus gros = impact ~10x plus grand. Recommandation : choisir le modèle adapté à la tâche. C'est l'étude la plus rigoureuse publiée à ce jour — aucun autre fournisseur (OpenAI, Anthropic, Google) n'a publié d'ACV aussi complète.

Autres études clés

"Life-Cycle Emissions of AI Hardware" (arXiv:2502.01671) — première analyse cradle-to-grave des accélérateurs IA (5 générations de TPU). Les émissions de fabrication du matériel sont significatives et souvent ignorées.
"Toward Sustainable Generative AI" (arXiv:2511.17179) — les études antérieures surestimaient l'impact par requête et sous-estimaient les gains d'efficacité.

9. Benchmark local — IA sur un laptop

Test réalisé sur un Intel i7-13850HX (28 threads, 32 Go RAM), avec des modèles open-source tournant en local via Ollama. Mesure via compteurs Intel RAPL (Running Average Power Limit) — ce sont des compteurs hardware intégrés au processeur qui mesurent l'énergie réellement consommée par le CPU en microjoules. C'est la mesure la plus fiable possible sans wattmètre externe.

Prompt de test : "Explique en 3 paragraphes ce qu'est la paie des intermittents du spectacle en France, avec les spécificités des conventions collectives et des organismes comme Audiens et les Congés Spectacles."

Réponse directe (sans raisonnement)

Qwen 3.5 — 9B paramètres (6.6 Go)

11s

Durée

27 W

Puissance CPU

0.08 Wh

Énergie totale

0.04 Wh

Surplus inférence

GLM-4.7 Flash — ~30B paramètres (19 Go)

24s

Durée

41 W

Puissance CPU

0.28 Wh

Énergie totale

0.18 Wh

Surplus inférence

Avec raisonnement interne ("thinking")

Les mêmes modèles en mode raisonnement (réflexion silencieuse avant de répondre) :

Qwen 3.5 — 9B (thinking)

81s

Durée

26 W

Puissance CPU

0.59 Wh

Énergie totale

0.29 Wh

Surplus inférence

GLM-4.7 Flash — ~30B (thinking)

108s

Durée

51 W

Puissance CPU

1.53 Wh

Énergie totale

0.85 Wh

Surplus inférence

  Le mode "thinking" (raisonnement) multiplie l'énergie par 5 à 7x pour la même question. C'est l'équivalent local de la différence entre un modèle standard et un modèle de raisonnement (o3, DeepSeek-R1) côté cloud.

  À retenir : faire tourner un modèle IA localement sur un laptop consomme 1 à 3 Wh par requête (selon la taille du modèle), pour un résultat incomparablement moins bon qu'un modèle cloud (9-30B vs 400B+ paramètres). Le cloud avec du matériel spécialisé est plus efficient et plus performant.

Sources

IEA, Energy and AI — Energy demand from AI, 2025 — iea.org
IEA, Electricity Mid-Year Update 2025 — iea.org
Google Cloud Blog, Measuring the environmental impact of AI inference, août 2025 — cloud.google.com
Sam Altman, The Gentle Singularity, juin 2025 — blog.samaltman.com
Hannah Ritchie, AI footprint, août 2025 — hannahritchie.substack.com
Stanford Hazy Research, Inference performance per watt, nov 2025 — hazyresearch.stanford.edu
Epoch AI, How much energy does ChatGPT use? — epoch.ai
Jegham et al., How Hungry is AI?, arXiv:2505.09598 — arxiv.org
Niu et al., TokenPowerBench, arXiv:2512.03024 — arxiv.org
Toward Sustainable Generative AI, arXiv:2511.17179 — arxiv.org
Life-Cycle Emissions of AI Hardware, arXiv:2502.01671 — arxiv.org
Patterson et al., Carbon Emissions and Large Neural Network Training, 2021 — arxiv.org
Mistral AI / Carbone 4 / ADEME, Our contribution to a global environmental standard for AI, juil 2025 — mistral.ai

Accès restreint

1. Combien consomme une requête IA ?

2. Ce que ça représente concrètement

Et le PC du développeur ?

À l'échelle d'une entreprise

3. Le tableau global : data centers et IA

4. Les modèles deviennent drastiquement plus efficaces

5. L'empreinte carbone dépend surtout du fournisseur

6. Entraînement vs utilisation

7. Synthèse

8. Ce que dit la recherche académique

Benchmarks d'énergie par modèle (Jegham et al., 2025)

Mesure au niveau du token (TokenPowerBench, Texas Tech, 2025)

L'empreinte individuelle est négligeable (Hannah Ritchie, 2025)

Analyse de cycle de vie d'un modèle IA — Mistral / Carbone 4 / ADEME (juillet 2025)

Autres études clés

9. Benchmark local — IA sur un laptop

Réponse directe (sans raisonnement)

Qwen 3.5 — 9B paramètres (6.6 Go)

GLM-4.7 Flash — ~30B paramètres (19 Go)

Avec raisonnement interne ("thinking")

Qwen 3.5 — 9B (thinking)

GLM-4.7 Flash — ~30B (thinking)

Sources