4 Le calage sur marges
4.1 Un “vieillissement” de l’ERFS opéré en deux étapes
Afin de simuler une année de législation sociofiscale, le modèle Ines nécessite de “vieillir” l’échantillon des données de l’ERFS de deux années successives afin qu’il puisse être représentatif de la situation socio-économique de trois années consécutives.
En effet, la simulation de la législation fiscale et sociale d’une année (par exemple N+2) s’appuie sur des informations individuelles, notamment de revenus, de trois années consécutives (N, N+1 et N+2).
Ce vieillisssement de deux années de l’ERFS permet également d’actualiser les simulations du modèle à une année relativement plus récente que celle de l’ERFS dont les résultats sont diffusées avec un délai de plus de 2 ans.
La méthode retenue pour le “vieillissement” des données repose sur deux étapes et traitements successifs complémentaires :
- un calage sur marges annuel : 3 repondérations de l’échantillon de l’année N sont réalisées afin qu’il puisse êrte représentatif de la structure sociodémographique de la population de 3 années consécutives (N, N+1 et N+2) ;
- une revalorisation des revenus au niveau micro-économique : on désigne cette étape par le terme “dérive des revenus” dans le modèle Ines, elle permet d’introduire des évolutions de revenus individuels en cohérence avec l’évolution des masses agrégées de ces mêmes agrégats de revenus au niveau macro-économique (selon les données disponibles au moment de l’opération).
Voir la page dédiée à l’étape de dérive des revenus pour plus de détails.
4.2 La repondération de l’ERFS par calage sur marges sociodémographiques
Cette première étape de “vieillissement” de l’ERFS mobilise une méthode de calage sur marge dont l’objectif est de déformer légèrement les poids d’échantillonage associés à chaque observation de façon à rendre compte d’une réalité sociodémographiue différente anée après année. Par définition, le calage sur marges ne modifie que les poids de l’ERFS et aucune des autres variables de diffusion.
Trois jeux de données sont créés par des algorithmes successifs de calage sur marges à partir de l’ERFS de l’année N qui affectent les poids des ménages mais ne modifient pas à ce stade leurs revenus. Il s’agit de la pseudo ERFS N (recalée de manière contemporaine), de la pseudo ERFS N+1 et de la pseudo ERFS N+2.
Schéma - principe de l’étape de calage sur marge dans le modèle Ines
Pour appliquer à l’ERFS une déformation relativement homogène, il conviendrait a priori d’utiliser les mêmes variables pour définir les marges de calage de la population de départ (T4 de l’année N) et de celle d’arrivée (T4 de l’année N+2). Cependant, une partie des informations utilisées au premier calage n’est pas encore disponible pour le dernier. Afin d’utiliser au maximum les informations existantes, toutes les variables du dernier calage sont utilisées dans les précédents. En d’autres termes, nous pouvons définir les variables de calage utilisées en procédant à rebours :
- Construction de la pseudo-ERFS N+2 (calage n°3) : Les marges de calage sont les suivantes :
- la composition du ménage en 8 positions ;
- la pyramide des âges par sexe en 16 positions (extrapolée au 31 décembre) ;
- le statut d’activité en 6 positions ;
- la catégorie socioprofessionnelle en 3 positions ;
- le nombre de locataires ;
- la composition du ménage en 8 positions ;
En revanche, la structure des déclarations fiscales de N+2 n’étant pas disponible au moment de la réalisation d’Ines (en N+3), nous utilisons comme alternative le nombre de ménages avec des salariés, des agriculteurs, autres indépendants et retraités (4 positions).
Construction de la pseudo-ERFS N+1 (calage n°2) : On conserve les marges utilisées à l’étape ci-dessus calculées sur N+1 auxquelles s’ajoutent le nombre de déclarations fiscales par catégories de revenus en 5 positions.
Recalage de l’ERFS N (calage n°1) : On conserve les marges utilisées à l’étape ci-dessus, calculées sur N, auxquelles s’ajoutent les masses fiscales pour 6 agrégats de revenus. Ce calage sur l’année N contemporaine de l’ERFS permet de disposer d’un échantillon obtenu de manière quasi homogène entre les 3 années mobilisées pour la simulation (à l’exception des masses fiscales par agrégat de revenus qui sont par ailleurs utilisées pour le calage sur marges de l’ERFS lors de sa production).
4.3 Données fiscales
Les marges fiscales (nombre de déclarations et masses financières) sont calculées à partir des émissions du POTE mobilisés pour la production de l’ERFS.
Ces fichiers sont fournis par la DGFiP sur le champ France entière et tous ménages. Deux coefficients de passage sont appliqués, tout d’abord pour réduire le champ à la France métropolitaine, puis pour passer sur le champ des ménages ordinaires.
4.4 Données démographiques
La Division Enquêtes et Études Démographiques de l’Insee transmet les pyramides des âges par sexe sur le champ des ménages ordinaires de France métropolitaine au 15 novembre N, N+1 et N+2.
Des regroupements sont ensuite effectués par tranches d’âge et éventuellement par sexe pour certaines catégories afin de réaliser le calage sur marge dans le modèle.
4.5 Données logement
Cette marge unique correspond au nombre de ménages locataires de leur résidence principale et résidant en France métropolitaine, elle est calculée et transmise par la Division Logement de l’Insee.
4.6 Données emploi
Les marges de calage relatives à l’emploi, aux catégories socioprofessionnelles et au statut d’activité sont calculées par la Division Sondages de l’Insee sur les données du t4 des EEC N, N+1 et N+2 en utilisant la pondération des ménages ordinaires de l’EEC.