Gestion du portefeuille client et prévision de consommation chez un fournisseur d'électricité

Pour un fournisseur d’électricité, la qualité de la prévision de consommation de son portefeuille client conditionne directement sa rentabilité. Une surestimation génère des achats excédentaires revendus à perte sur le marché spot, une sous-estimation expose à des achats de dernière minute aux prix les plus volatils, et les deux cas se traduisent par des écarts d’équilibre facturés par RTE. Pourtant, cette fonction de forecasting reste souvent sous-dimensionnée chez les fournisseurs alternatifs de taille intermédiaire, qui se reposent tantôt sur leur responsable d’équilibre délégué, tantôt sur des tableurs artisanaux. Cet article propose une analyse technique des composantes d’une prévision de consommation fiable, des données disponibles, des méthodologies de modélisation et des architectures IT qui permettent de passer à l’échelle.

Le portefeuille client : un objet plus complexe qu’il n’y paraît

La première difficulté du forecasting tient à la nature même du portefeuille d’un fournisseur. Contrairement à un actif de production dont le comportement est relativement prévisible (un parc éolien obéit à la météo, une centrale thermique à un planning de dispatch), un portefeuille de consommation est un agrégat hétérogène de milliers de profils individuels dont les comportements sont partiellement corrélés mais jamais identiques.

Segmentation par type de comptage

La segmentation la plus structurante, et celle qui détermine la qualité des données disponibles, repose sur le type de comptage associé à chaque point de livraison (PDL).

Les sites en C1 à C4, raccordés en HTA ou en BT avec une puissance souscrite supérieure à 36 kVA, disposent historiquement d’un compteur à courbe de charge (télérelevé). Le fournisseur reçoit d’Enedis des flux R151 contenant les index de courbe de charge au pas 10 minutes ou 30 minutes, ce qui permet de reconstituer un profil de soutirage réel, quasi temps réel (avec un décalage typique de J+1 à J+2 selon la fréquence de collecte).

Les sites en C5 (résidentiel et petit professionnel, puissance inférieure ou égale à 36 kVA) représentent la masse volumique du portefeuille. Avant le déploiement de Linky, ces sites étaient facturés sur index relevés semestriellement et leur consommation était reconstituée par Enedis via des profils types (les fameux profils RES, PRO, ENT, etc., définis par la méthode de reconstitution des flux au titre du Règlement d’Allocation). Avec Linky, la situation évolue profondément puisque les courbes de charge au pas 30 minutes deviennent accessibles pour plus de 35 millions de compteurs en France.

Le défi de l’hétérogénéité

Un fournisseur qui dessert à la fois des boulangeries, des copropriétés, des PME industrielles et des ménages doit composer avec des profils de consommation radicalement différents. La boulangerie démarre ses fours à 3h du matin, la copropriété présente un pic le soir, la PME industrielle fonctionne en 2x8 avec un arrêt le week-end. Le défi du forecasting consiste à agréger ces comportements individuels en une courbe de charge prévisionnelle globale, au pas demi-horaire, pour alimenter la nomination (PDEV) transmise à RTE par le responsable d’équilibre.

Les données d’entrée : de la télérelève aux variables exogènes

La qualité d’un modèle de prévision dépend fondamentalement de la qualité et de la fraîcheur de ses données d’entrée. Trois grandes familles de données alimentent le processus.

Les données de consommation historiques

Pour les sites télérelevés (C1 à C4 et C5 Linky), le fournisseur dispose de courbes de charge historiques. Ces données, transmises via les flux Enedis (R151 pour les courbes de charge, C15 pour les index quotidiens Linky), constituent le socle de tout modèle statistique. La profondeur d’historique nécessaire dépend du modèle retenu : un an minimum pour capter la saisonnalité, idéalement deux à trois ans pour isoler les tendances structurelles (efficacité énergétique, électrification des usages).

Pour les sites profilés non encore équipés Linky (une fraction résiduelle mais non nulle du parc), le fournisseur ne dispose que des consommations annuelles de référence (CAR) et des profils types Enedis. La prévision est alors mécaniquement moins précise au niveau individuel, mais l’effet d’agrégation joue en faveur du fournisseur : les erreurs individuelles tendent à se compenser sur un portefeuille de quelques milliers de sites.

Les variables météorologiques

La température extérieure est la variable explicative la plus puissante de la consommation électrique en France, en raison de la part importante du chauffage électrique dans le mix résidentiel (environ un tiers des logements). Le gradient thermosensible du parc français est estimé à environ 2 400 MW par degré Celsius en hiver, ce qui signifie qu’un écart de 1°C sur la température nationale entraîne une variation de consommation de l’ordre de 2,4 GW.

Pour un fournisseur, cette sensibilité doit être calculée à l’échelle de son propre portefeuille et, idéalement, par zone géographique. Les sources de données météorologiques utilisées en pratique sont les prévisions Météo-France (disponibles via des contrats commerciaux ou des API), les données ECMWF (Centre européen pour les prévisions météorologiques) et les stations météo automatiques de l’IGN.

Au-delà de la température, d’autres variables jouent un rôle : la nébulosité (impact sur l’éclairage et la production photovoltaïque en autoconsommation), le vent (effet de refroidissement perçu, dit “wind chill”), et l’humidité relative.

Les variables calendaires et événementielles

Le jour de la semaine, le caractère férié ou ouvré, les vacances scolaires par zone académique, les ponts, les événements exceptionnels (grèves, confinements) : toutes ces variables influencent significativement les profils de consommation. Un vendredi veille de pont en mai ne ressemble en rien à un mardi ordinaire de mars, même à température identique.

Les effets de calendrier sont particulièrement importants pour les portefeuilles à dominante professionnelle, où l’activité économique dicte le rythme de consommation.

Méthodologies de prévision : du profilage Enedis au machine learning

Les approches de forecasting varient considérablement selon la taille du fournisseur, la maturité de ses équipes et la composition de son portefeuille.

L’approche par profilage Enedis

La méthode la plus simple, encore largement utilisée par les petits fournisseurs, consiste à s’appuyer sur les profils types publiés par Enedis dans le cadre du mécanisme de reconstitution des flux (profils dynamiques calculés par RTE et diffusés quotidiennement). Le principe : chaque site C5 se voit attribuer un profil normalisé (RES1, RES2, PRO1, PRO2, etc.) en fonction de ses caractéristiques contractuelles. En multipliant ce profil par la consommation annuelle de référence du site, on obtient une estimation de la courbe de charge.

Cette approche a le mérite de la simplicité et de la cohérence avec le mécanisme de règlement des écarts (puisque c’est précisément cette méthode qui est utilisée pour le calcul du soutirage profilé dans le bilan du responsable d’équilibre). En revanche, elle présente des limites significatives : les profils types sont des moyennes qui ne captent pas les spécificités individuelles, et le décalage entre la CAR et la consommation réelle peut être important pour certains sites.

La prévision statistique par régression

L’étape suivante consiste à construire un modèle de régression qui relie la consommation agrégée du portefeuille (variable à expliquer) à un ensemble de variables explicatives : température, jour de la semaine, heure de la journée, mois de l’année, indicatrices de jours fériés, etc.

Les modèles les plus répandus dans le secteur sont les régressions linéaires multiples avec traitement par morceaux de la thermosensibilité (un coefficient pour la partie chauffage en dessous d’un seuil de température, un autre pour la partie climatisation au-dessus d’un second seuil), les modèles additifs généralisés (GAM) qui permettent de capturer des relations non linéaires entre température et consommation, et les modèles de type SARIMAX (Seasonal ARIMA with eXogenous variables) qui intègrent à la fois l’autocorrélation temporelle de la série de consommation et l’effet des variables explicatives.

Ces modèles sont généralement entraînés sur un historique de 12 à 36 mois et recalibrés régulièrement (hebdomadairement ou mensuellement) pour intégrer les évolutions du portefeuille (entrées et sorties de clients, changements de comportement).

Le machine learning et les approches ensemblistes

Les fournisseurs les plus avancés, ou ceux dont le portefeuille justifie un investissement plus conséquent, déploient des modèles de type gradient boosting (XGBoost, LightGBM) ou des réseaux de neurones récurrents (LSTM, GRU). Ces approches présentent l’avantage de capturer automatiquement des interactions complexes entre variables sans avoir à les spécifier manuellement.

En pratique, la performance marginale du machine learning par rapport à un bon modèle GAM bien calibré reste modeste sur la prévision agrégée d’un portefeuille homogène. L’apport est plus marqué dans deux cas : les portefeuilles très hétérogènes où les interactions entre segments sont complexes, et la prévision à maille fine (site par site ou cluster par cluster) où la richesse des courbes de charge Linky peut être pleinement exploitée.

Une approche qui se généralise est l’ensemble learning, qui combine les prédictions de plusieurs modèles (régression, GAM, gradient boosting, etc.) par une moyenne pondérée optimisée. Cette stratégie réduit la variance des erreurs de prévision et offre une robustesse supérieure face aux événements atypiques.

Architecture IT d’une chaîne de forecasting

La mise en production d’un système de prévision de consommation nécessite une architecture IT qui dépasse largement le simple modèle statistique.

Collecte et stockage des données

Le premier étage de la fusée est la collecte automatisée des données Enedis (flux R151, C15, profilage), leur intégration dans une base de données temporelle (time-series database) de type InfluxDB, TimescaleDB ou simplement un schema dédié dans PostgreSQL, et l’alimentation en données météorologiques via des API dédiées.

Le volume de données peut être considérable : un portefeuille de 50 000 sites Linky avec des courbes de charge au pas 30 minutes génère environ 50 000 x 48 x 365 = 876 millions de points de mesure par an. Le choix de la base de données et de la stratégie d’agrégation (conservation des données brutes sur N mois, agrégation horaire ou journalière ensuite) est un arbitrage technique important.

Pipeline de modélisation

Le pipeline de prévision suit généralement un schéma séquentiel : nettoyage des données (détection et correction des valeurs aberrantes, gestion des données manquantes), feature engineering (création des variables calendaires, calcul des températures pondérées par zone, etc.), entraînement des modèles sur l’historique, validation croisée temporelle (on ne mélange jamais passé et futur dans les jeux d’entraînement et de test), et génération de la prévision pour les horizons pertinents.

Les horizons de prévision varient selon l’usage : J+1 au pas demi-horaire pour la nomination PDEV, S+1 à M+1 pour le pilotage de la couverture sur les marchés à terme, M+3 à Y+1 pour la stratégie d’approvisionnement et la construction tarifaire.

Intégration avec la chaîne d’approvisionnement

La prévision de consommation n’a de valeur que si elle alimente effectivement les décisions d’approvisionnement. En pratique, cela signifie une intégration avec le système de gestion de portefeuille (ETRM, Energy Trading and Risk Management) et avec le processus de nomination du responsable d’équilibre.

Pour un fournisseur qui délègue sa fonction RE, la prévision est transmise quotidiennement au RE délégué, qui l’intègre dans son propre périmètre d’équilibre. La qualité de cette transmission (format, délai, granularité) est un point de friction fréquent. Pour un fournisseur qui internalise sa fonction RE (sujet traité dans notre article sur l’internalisation du responsable d’équilibre), la prévision alimente directement le calcul du PDEV transmis à RTE.

Mesurer et piloter la performance du forecasting

Un bon système de prévision est un système dont on mesure en permanence les écarts et que l’on améliore itérativement.

Les métriques clés

Les indicateurs les plus utilisés dans le secteur sont le MAPE (Mean Absolute Percentage Error), qui exprime l’erreur moyenne en pourcentage de la consommation réelle, et le RMSE (Root Mean Square Error) au pas demi-horaire, qui pénalise davantage les erreurs importantes. Un fournisseur alternatif avec un portefeuille de quelques dizaines de milliers de sites peut viser un MAPE de l’ordre de 3 à 5 % en J+1, les meilleures performances étant obtenues par les grands RE qui bénéficient d’un effet de foisonnement sur des portefeuilles de plusieurs millions de sites.

Il est essentiel de décomposer les erreurs par période (pointe, heures creuses, week-end), par saison (hiver, été), et par segment de clientèle, afin d’identifier les poches d’amélioration. Une erreur de 2 % en heures creuses d’été a un impact financier très différent d’une erreur de 2 % en pointe hivernale, où les prix spot peuvent dépasser 200 EUR/MWh.

L’impact financier des écarts de prévision

Le lien entre erreur de prévision et coût d’écart est direct. Le mécanisme de règlement des écarts de RTE repose sur un prix de règlement des écarts (PRDE) qui peut être très pénalisant en période de tension. En 2022 et 2023, les prix de règlement des écarts ont ponctuellement dépassé 500 EUR/MWh, transformant des erreurs de prévision de quelques pourcents en pertes financières significatives.

Pour un fournisseur avec un portefeuille moyen de 200 MW de puissance appelée, une erreur de prévision de 3 % représente un écart de 6 MW. Si le prix de règlement moyen est de 80 EUR/MWh (ordre de grandeur sur une demi-heure de pointe), le coût d’écart pour cette seule demi-heure est de 240 EUR. Multiplié par le nombre de demi-heures de l’année, les montants en jeu se chiffrent en centaines de milliers d’euros annuels, voire en millions pour les portefeuilles importants.

L’apport de Linky et les perspectives d’évolution

Le déploiement quasi achevé des compteurs Linky transforme profondément la donne pour les fournisseurs. L’accès aux courbes de charge individuelles au pas 30 minutes (sous réserve du consentement du client pour les données fines) permet de dépasser le profilage statistique et de construire des modèles de prévision site par site ou par cluster de comportement.

Cette granularité ouvre la voie à des stratégies de pilotage de la demande (demand response), d’optimisation tarifaire fine (offres heures super creuses, offres dynamiques indexées sur le spot) et, à terme, d’agrégation de flexibilité. Elle requiert toutefois des investissements IT conséquents en collecte de données, en puissance de calcul et en compétences data science que tous les fournisseurs ne sont pas en mesure de consentir immédiatement.

La réforme de la méthode de profilage et de reconstitution des flux, engagée par Enedis et la CRE dans le sillage du déploiement de Linky (passage progressif à un profilage dynamique basé sur les courbes de charge réelles), va également modifier les règles du jeu pour le calcul des écarts. Les fournisseurs qui auront investi précocement dans la maîtrise de leurs données de consommation disposeront d’un avantage compétitif significatif dans ce nouveau cadre.

Gridaria accompagne les fournisseurs d’électricité et les responsables d’équilibre dans la structuration de leur chaîne de prévision de consommation, du choix des outils à l’intégration des données Enedis et des modèles de forecasting. Prenez contact →