Consommation énergétique de l'IA
Note préparée dans le cadre de la mission Movinmotion pour éclairer la question de l'impact environnemental de l'adoption d'outils IA.
1. Combien consomme une requête IA ?
Les chiffres réels publiés en 2025 sont très différents des estimations alarmistes de 2023.
| Service | Énergie par requête texte | Source |
|---|---|---|
| Google Search (classique) | ~0.3 Wh | Google (2009) |
| Google Gemini (texte) | 0.24 Wh | Google Cloud Blog, août 2025 |
| ChatGPT (GPT-4o, texte) | 0.34 Wh | Sam Altman, juin 2025 |
| Claude Haiku (petit modèle) | ~0.22 Wh | Estimation energycosts.co.uk |
| Claude Opus (gros modèle) | ~4 Wh | Estimation, réponses longues |
| Génération d'image | 0.3–1.2 Wh | Hannah Ritchie / MIT Tech Review |
| Génération vidéo (Sora, 5s) | ~1 000 Wh | MIT Tech Review |
Les requêtes longues (100k tokens) peuvent monter à ~40 Wh, mais ce sont des cas exceptionnels.
2. Ce que ça représente concrètement
| Activité | Énergie |
|---|---|
| 1 requête ChatGPT | 0.34 Wh = un four allumé pendant 1 seconde |
| 1 heure de Netflix | 77–240 Wh |
| 1 requête IA | = 5 à 10 secondes de streaming Netflix |
| 1 email | ~0.004 Wh |
| 1 transaction Bitcoin | ~1 335 000 Wh (1 335 kWh) |
Et le PC du développeur ?
Un laptop de développeur (type Intel i7-13850HX, 32 Go RAM) consomme ~46 W en charge. En une journée de 8h, c'est 368 Wh — soit l'équivalent de ~1 000 requêtes IA.
Et quand ce PC fait tourner de l'IA agentique en local (RAM saturée, swap actif, CPU à fond), sa consommation monte à 60-80 W — soit encore plus. L'ironie : faire tourner l'IA côté serveur (cloud) est souvent plus efficace énergétiquement que de la faire tourner en local, car les data centers utilisent du matériel spécialisé (GPU/TPU) avec un bien meilleur rendement par calcul.
À l'échelle d'une entreprise
Un employé faisant 50 requêtes IA/jour consomme ~17 Wh côté serveur, soit :
- Moins que 5 minutes de Netflix
- L'équivalent de laisser une ampoule LED allumée 1 heure
- ~5% de la consommation de son propre PC sur la même journée
Une équipe de 50 personnes utilisant l'IA intensivement (50 requêtes/jour chacune) = 850 Wh/jour côté serveur. La même équipe consomme ~18 400 Wh/jour rien qu'avec ses postes de travail. L'IA ajoute moins de 5% à l'empreinte IT existante.
3. Le tableau global : data centers et IA
| Année | Data centers (mondial) | % électricité mondiale | Part IA |
|---|---|---|---|
| 2024 | ~415 TWh | ~1.5% | ~14% |
| 2026 (proj.) | >500 TWh | ~2% | ~40% |
| 2030 (proj.) | ~945 TWh | ~3% | — |
L'IA est un facteur de croissance des data centers, mais ceux-ci restent une fraction modeste de la consommation mondiale (1.5 à 3%). Pour comparaison, le Bitcoin seul consomme 155–175 TWh/an.
4. Les modèles deviennent drastiquement plus efficaces
C'est le point le plus important et le moins médiatisé.
- Google Gemini : 33x moins d'énergie par requête entre mai 2024 et mai 2025 (architecture mixture-of-experts, décodage spéculatif, TPUs optimisés). Réduction carbone de 44x.
- ChatGPT : estimé à 3 Wh/requête en 2023, mesuré à 0.34 Wh en 2025 — ~10x d'amélioration en 2 ans.
- Inférence locale : gain d'efficacité de 5.3x entre 2023 et 2025 (3.1x modèles + 1.7x matériel).
- GPUs : 100x plus de calculs par watt qu'en 2008.
5. L'empreinte carbone dépend surtout du fournisseur
La même requête peut avoir une empreinte carbone 10 à 50x différente selon le data center qui la traite.
| Fournisseur | Énergie renouvelable | Tendance émissions |
|---|---|---|
| Google (héberge Claude via GCP) | >8 GW de contrats clean energy en 2024, 9/20 régions >80% carbon-free | +50% sur 5 ans |
| AWS (héberge aussi Claude) | Objectif 100% renouvelable en 2025, plus gros acheteur corporate | En progression |
| Anthropic (Claude) | S'engage à couvrir 100% des coûts d'upgrade réseau | Pas de rapport publié |
| Microsoft | 19 GW contracté en 2024, conso ×3 depuis 2020 | +23% depuis 2020 |
6. Entraînement vs utilisation
L'entraînement d'un modèle est un investissement ponctuel. L'inférence (utilisation quotidienne) domine largement :
- >90% de l'énergie lifecycle d'un modèle est de l'inférence (AWS Research)
- Entraînement GPT-4 : ~1 750 MWh (= 160 foyers US pendant 1 an)
- Mais ChatGPT sert ~2.5 milliards de requêtes/jour : l'inférence dépasse l'entraînement en quelques semaines
Pour une entreprise utilisatrice, seule l'inférence compte — et elle est négligeable à l'échelle d'une PME.
7. Synthèse
| Question | Réponse |
|---|---|
| L'IA consomme-t-elle beaucoup ? | Par requête : autant qu'une recherche Google. Par employé : négligeable. |
| C'est pire que le streaming ? | Non. 50 requêtes IA = 5 minutes de Netflix. |
| Les modèles s'améliorent ? | Oui, très vite. 10 à 33x plus efficaces en 1-2 ans. |
| Le vrai levier carbone ? | Le choix du fournisseur cloud et de la région, pas le nombre de requêtes. |
| Le risque est-il macro ou micro ? | Macro : la croissance globale des data centers est réelle (×2 d'ici 2030). Micro : l'impact d'une PME qui adopte l'IA est imperceptible. |
8. Ce que dit la recherche académique
Benchmarks d'énergie par modèle (Jegham et al., 2025)
L'étude "How Hungry is AI?" (Université de Rhode Island, arXiv:2505.09598) a mesuré 30 modèles en conditions réelles via les API publiques :
| Modèle | Énergie/requête | Note |
|---|---|---|
| LLaMA-3.1-8B | 0.44 Wh | Modèle léger, le plus efficient |
| GPT-4.1 nano | 0.83 Wh | Petit modèle OpenAI |
| GPT-4o | ~1.5 Wh | Modèle standard |
| DeepSeek-R1 (Azure) | 7.4 Wh | Raisonnement avancé, infra optimisée |
| o3 (OpenAI) | 12.2 Wh | Raisonnement avancé |
| DeepSeek-R1 (serveurs natifs) | 29 Wh | Même modèle, infra moins efficace |
Mesure au niveau du token (TokenPowerBench, Texas Tech, 2025)
- La quantization FP8 réduit la consommation de ~30% vs FP16
- Les moteurs optimisés (TensorRT-LLM, vLLM) réduisent l'énergie par token de 25-40%
- Passer de 2K à 10K tokens en entrée triple l'énergie par token
- L'architecture Mixture-of-Experts (Mixtral) atteint l'efficacité d'un 8B avec la qualité d'un 56B
L'empreinte individuelle est négligeable (Hannah Ritchie, 2025)
- 10 requêtes IA/jour = 0.03% de la consommation électrique quotidienne d'un Britannique
- 100 requêtes IA/jour = 0.3% de la consommation quotidienne
- Une requête Gemini = 0.03 g CO2e (après réduction 44x en 1 an)
- La génération vidéo est le vrai gouffre, pas le texte
Analyse de cycle de vie d'un modèle IA — Mistral / Carbone 4 / ADEME (juillet 2025)
Mistral AI a publié la première ACV complète d'un modèle de langage, réalisée avec Carbone 4 et l'ADEME, conforme aux normes ISO 14040/44 et au GHG Protocol.
| Indicateur | Par requête (400 tokens) | Total modèle (Large 2, 123B) |
|---|---|---|
| Émissions CO2 | 1.14 g CO2e | 20 400 t CO2e |
| Eau consommée | 45 ml | 281 000 m³ |
| Épuisement ressources | 0.16 mg Sb eq | 660 kg Sb eq |
Autres études clés
- "Life-Cycle Emissions of AI Hardware" (arXiv:2502.01671) — première analyse cradle-to-grave des accélérateurs IA (5 générations de TPU). Les émissions de fabrication du matériel sont significatives et souvent ignorées.
- "Toward Sustainable Generative AI" (arXiv:2511.17179) — les études antérieures surestimaient l'impact par requête et sous-estimaient les gains d'efficacité.
9. Benchmark local — IA sur un laptop
Test réalisé sur un Intel i7-13850HX (28 threads, 32 Go RAM), avec des modèles open-source tournant en local via Ollama. Mesure via compteurs Intel RAPL (Running Average Power Limit) — ce sont des compteurs hardware intégrés au processeur qui mesurent l'énergie réellement consommée par le CPU en microjoules. C'est la mesure la plus fiable possible sans wattmètre externe.
Prompt de test : "Explique en 3 paragraphes ce qu'est la paie des intermittents du spectacle en France, avec les spécificités des conventions collectives et des organismes comme Audiens et les Congés Spectacles."
Réponse directe (sans raisonnement)
Qwen 3.5 — 9B paramètres (6.6 Go)
GLM-4.7 Flash — ~30B paramètres (19 Go)
Avec raisonnement interne ("thinking")
Les mêmes modèles en mode raisonnement (réflexion silencieuse avant de répondre) :
Qwen 3.5 — 9B (thinking)
GLM-4.7 Flash — ~30B (thinking)
Sources
- IEA, Energy and AI — Energy demand from AI, 2025 — iea.org
- IEA, Electricity Mid-Year Update 2025 — iea.org
- Google Cloud Blog, Measuring the environmental impact of AI inference, août 2025 — cloud.google.com
- Sam Altman, The Gentle Singularity, juin 2025 — blog.samaltman.com
- Hannah Ritchie, AI footprint, août 2025 — hannahritchie.substack.com
- Stanford Hazy Research, Inference performance per watt, nov 2025 — hazyresearch.stanford.edu
- Epoch AI, How much energy does ChatGPT use? — epoch.ai
- Jegham et al., How Hungry is AI?, arXiv:2505.09598 — arxiv.org
- Niu et al., TokenPowerBench, arXiv:2512.03024 — arxiv.org
- Toward Sustainable Generative AI, arXiv:2511.17179 — arxiv.org
- Life-Cycle Emissions of AI Hardware, arXiv:2502.01671 — arxiv.org
- Patterson et al., Carbon Emissions and Large Neural Network Training, 2021 — arxiv.org
- Mistral AI / Carbone 4 / ADEME, Our contribution to a global environmental standard for AI, juil 2025 — mistral.ai