1. Introduction
1 L'étude s'intéresse au processus de formation des prix immobiliers résidentiels dans la ville de Paris. Le sujet est important car il touche non seulement au domaine du marketing et de la commercialisation, mais aussi aux conditions du bien-être dans une métropole.
2 Pour traiter cette question, l'analyse ne peut pas être réalisée en restreignant l’étude aux arrondissements indépendamment les uns des autres. Bien au contraire, car c’est une chose typique que la formation des prix dans un endroit soit influencée par le processus de formation ailleurs, même si cette influence diminue avec la distance. En économétrie spatiale, ce processus nommé « spillover » (diffusion du prix), est appréhendé entre autre avec la méthode Sar (Spatial Autoregression). Cette méthode fournit un estimateur de l'autocorrélation spatiale ρ, qui est le paramètre décisif pour mesurer la puissance de la diffusion. La construction d'un réseau topographique recouvrant Paris est une tâche centrale pour pouvoir développer cette analyse.
3 L'étude utilise des données immobilières de la base notariale Bien et des données relatives à la population parisienne mises à disposition par l’Insee. Cette investigation repose sur 28 828 transactions d’appartements réalisées en 2007, avec un taux de collecte de 80 % par rapport à l’ensemble du marché, ce qui apparaît satisfaisant. En agrégeant les données individuelles dans un réseau de taille intermédiaire, il a été possible d'utiliser des modèle Sar et d’obtenir des estimateurs du paramètre ρ, paramètre qui caractérise la diffusion.
4 L’un des apports de cette étude réside dans l'évaluation des contributions partielles au paramètre ρ, pour chacun des arrondissements. En ordonnant ces contributions il est en effet possible d’identifier certains arrondissements fortement diffusants, c’est-à-dire directeurs en prix, que l’on peut qualifier de quartiers « primes » à l’image des usages en immobilier d’entreprise. Mais il existe aussi, simultanément, un processus de sens contraire où la diffusion est dominée par des arrondissements à prix moyens, ou même à prix bas. Afin d’obtenir une représentation correcte de ces processus, il est nécessaire de traiter un problème d’identification que la littérature repère par le terme de « réflexion ». Dans les termes de la présente étude, cela revient à indiquer qu’à partir des seules estimations des autocorrélations il n’est pas possible de séparer la partie de la formation du prix qui est dirigée par les arrondissements, de celle qui se produit sur une base purement locale. Pour résoudre cette difficulté, une variable instrumentale de prix retardé spatialement est utilisée. La question centrale porte donc sur le mécanisme de la formation des prix. Est-il dominé par les conditions locales ou plutôt par la structure des prix moyens des arrondissements ? Et l'intensité de la diffusion dépend-elle du niveau des prix ?
5 L'article procède de la façon suivante. Le point de départ consiste en une revue de la littérature et la présentation du problème central. Les données sont décrites dans la section 3. La section 4 présente une estimation Ols (Ordinary least squares) de niveau individuel ; les résultats orientent vers un approfondissement par une analyse spatiale, sur la base de méso-agrégats. La section 5 en détaille la structure, à savoir un quadrillage. Cela permet d’obtenir des statistiques très instructives sur la distribution des prix et des caractéristiques sur l’ensemble de la ville. La section 6 discute des raisons pour lesquelles les estimateurs Sdm (modèle spatial de Durbin) ne peuvent pas résoudre le problème de la réflexion d’une manière satisfaisante. Une piste plus convaincante est heureusement fournie par le modèle Sar dans la section 7 avec un estimateur instrumental de prix retardés spatialement, permettant d’identifier les effets causals. À partir de ce modèle, la section 8 fournit le classement des arrondissements selon leur puissance de diffusion. L'article se termine par des conclusions et des références à quelques problèmes ouverts. Une annexe indique brièvement les formules utilisées pour la méthode Sar.
2. Revue de la littérature : le problème critique
6 L'analyse des effets de diffusion joue un rôle central dans l'étude des processus biologiques, médicaux, sociaux, économiques ou urbains. Une bonne partie de l’analyse qui suit est basée sur l’approche Sar ; on peut se reporter au livre de LeSage et Pace (2009) pour plus de détails. Les interactions entre les variables endogènes sont le centre de cette technique. Elles ont été appelées « diffusion » (spillover) car elles représentent les effets d’influence du processus avec lui-même, au-delà de ses caractéristiques ponctuelles. Dans la recherche urbaine, Roberts (2000) et Anselin et al. (2004) utilisent par exemple ce terme pour étudier la manière dont les développements des sites urbains et des environnements ruraux s’influencent mutuellement. On peut aussi citer l’étude de l’impact de la croissance des communes rurales sur les communes alentour par Henry et al. (2001). En économie du logement, les impacts spatiaux de la qualité et des prix ont beaucoup attiré l’attention. Citons par exemple, Simons et al. (1998) à propos de l’effet négatif sur les prix de la dégradation des biens, ou encore Ding et al. (2000) pour un exemple d’effet prix positif, causé cette fois par des modernisations. Parmi les études plus récentes, Cho et al. (2012) ont utilisé le principe de la diffusion pour étudier les dynamiques de développement des marchés immobiliers. Briant et al. (2010) ont quant à eux étudié l'importance de la taille et de la structure des grilles. Ils ont pu établir qu’il s’agissait de facteurs mineurs en comparaison de l’influence des caractéristiques. Tandis que Bhattacharjee et al. (2012) ont analysé les interactions spatiales dans les modèles de prix hédoniques, et Bhattacharjee et Holly (2013) ont étudié la transmission urbaine de la connaissance dans un réseau spatialisé avec la méthode Gmm (Generalized method of moments), une alternative à l’approche Sar.
7 Une autre voie de recherche mérite d’être mentionnée, celle des méthodes de type Gwr (Geographically weighted regression) telles que proposées par Fotheringham et al. (1998). Ces approches sont liées à la méthode Gmm et aux méthodes Fda et Flr (Functional data analysis et Functional linear regression) ; on peut se reporter à Cai et Hall (2006), ou encore Hall et Horowitz (2007). Récemment, Bhattacharjee et al. (2016) ont cherché à développer une combinaison de ces différentes techniques, et ils ont offert à cette occasion une vue d'ensemble assez détaillée. Cette voie n’a pas été retenue dans le présent article, car elle est davantage adaptée à la question de la découverte des sous-marchés qu’à l'analyse de la diffusion, objet de notre recherche.
8 Il convient également de porter une attention particulière aux articles récents ayant utilisé la base immobilière Bien. Barthélémy et al. (2013) ont par exemple fait usage de ces données pour réaliser des régressions quantiles, entre 2000 et 2006, et arrivent au résultat que la fluctuation spatiale des prix est substantielle. Ce caractère granulaire confirme l’intérêt de l’emploi d’un quadrillage. Nappi-Choulet et Maury (2011) ont travaillé avec un échantillon allant de 1990 à 2005 et ont employé la méthode spatio-temporelle Star. Ils ont démontré que les diffusions sont un déterminant important de la formation des prix de transactions à Paris. Baltagi et Bresson (2011) ont quant à eux utilisé un extrait allant de 1990 à 2003 en employant cette fois le modèle Sur (Seemingly unrelated regression), en lien avec l’approche spatiale Sar. Par rapport à la question de la contribution des arrondissements à prix élevés au mécanisme de détermination des prix, notre étude aboutit à des résultats en ligne avec les deux derniers articles. À première vue, ces travaux sur longue période apparaissent plus globaux si on les compare à l’approche en coupe instantanée pour 2007 développée ici. Mais il s’agit là d’une fausse impression, car notre contribution est avant tout méthodologique. Nous nous concentrons en effet sur un problème d’identification, qui n’a pas été suffisamment considéré, et qui permet de pénétrer plus en profondeur la causalité de la formation des prix.
9 Le point de départ de cet argument est l’article de Gibbons et Overman (2012) qui souligne le fait que beaucoup d’articles d’économétrie spatiale ne prêtent pas assez d’attention aux causalités qui sont à l’œuvre. Ces deux auteurs mettent en particulier l’accent sur le problème de la « réflexion » de Manski (1993 et 2000). Ce dernier avait discuté, en toute généralité, des effets de voisinage dans une structure spatiale globale de type Gsm (General spatial model), qui élargit les modèles du type Sar :
10 avec :
11 Dans cette équation, yi est la variable d’intérêt, xi un vecteur de variables exogènes, β le vecteur des coefficients associés à ces variables, ui et sont des termes d’erreurs pour les éléments inobservables. L'indice i repère l'objet d'intérêt et ses caractéristiques. est un symbole qui repère la localisation, normalement des voisinages non-recouvrants. ρ1 et ρ2 sont des paramètres d’autocorrélation spatiale : ρ1 pour l'effet endogène de l'espérance des voisins, pour l'influence des erreurs dans les alentours. Enfin, repère l'effet contextuel des caractéristiques du groupe sur la réalisation individuelle.
12 Pour arriver à une structure bien identifiée, il faut passer à l’espérance pour obtenir la forme réduite :
13 Celle-ci indique que, même si , seuls et sont identifiés, mais pas et séparément. Par conséquent, il n’y a que l’effet global des caractéristiques du voisinage qui soit identifié, mais pas sa division entre effets exogènes et effets endogènes, c’est-à-dire entre les phénomènes ponctuels et les diffusions. Cette difficulté a été discutée plus avant par Lee (2004 et 2007), Pinske et Slade (2010) et McMillen (2010).
14 En pratique, cela implique que l’on doit savoir quel est l’effet causal capturé par la matrice W qui relie les lieux a (pour les éléments se rapportant à la matrice de voisinage W on se reportera à l’annexe). La forme réduite permettra de construire les prédicteurs instrumentaux qui seront utilisés dans l'analyse spatiale de la section 8. Nous effectuerons également plusieurs tests pour déterminer quelles sont les caractéristiques qui ont un effet direct sur la structure des prix ; ceci nous permettra d'employer une variable instrumentale bien identifiée pour les prix des voisinages, afin de faire le tri entre les effets directs et les autres.
3. Les données
15 La base contient 28 828 transactions d’appartements, en 2007 à Paris, auxquelles sont associés les prix au m² ainsi que différentes caractéristiques qui seront significatives dans les modèles spatiaux. Les prix sont transformés en logarithmes dans l'analyse économétrique. Les autres variables sont classées en caractéristiques hédoniques, démographiques et personnelle (pour l'acheteur). En détail :
16 Les caractéristiques hédoniques retenues sont :
- l’âge de l'appartement : construit après 1980 (RECENT),
- la surface habitable : elle a été catégorisée en petite (< 40 m², SURF1), moyenne (variable de référence, exclue dans les estimations) et grande (> 100 m², SURF3).
- le repérage des duplex (DUPLEX).
18 Une caractéristique personnelle des acheteurs est utilisée :
- à savoir leur statut professionnel, avec la variable OUVRIER, qui regroupe pour des questions de simplicité les ouvriers, les artisans et les petits commerçants.
20 Enfin, trois caractéristiques sont basées sur des données de population par arrondissement, fournies par l’Insee :
- Le revenu moyen de la population installée dans un arrondissement (REVARROND), obtenu à partir de données Iris. Cette variable est transformée en logarithmes dans l'analyse spatiale.
- Le logarithme de la population/hectare de l’arrondissement en 2007 (LNDENS)
- la croissance de la population de 2006 à 2007 (POPGROW), pour refléter les dynamiques
22 La base renseigne également sur la localisation géographique fine des biens vendus en indiquant leur latitude et leur longitude. Ces informations permettent de rattacher les transactions à une cellule du quadrillage et à l’un des vingt arrondissements parisiens. Ceux qui touchent la frontière de Paris seront dits extérieurs (de 12 à 20), les autres seront qualifiés d’arrondissements intérieurs (de 1 à 11).
23 Les variables hédoniques et personnelles sont disponibles, pour chaque transaction, au niveau individuel. Par contre, les caractéristiques reliées à l’arrondissement sont identiques entre toutes les observations d’un même arrondissement.
24 On pourrait objecter qu’un prix immobilier est une fonction des variables hédoniques et de l’arrondissement, mais pas des caractéristiques des acheteurs ; les vendeurs n’étant pas a priori intéressés par un type spécifique d’acheteur. Il faut alors indiquer que les modèles économétriques de cet article seront basés sur des moyennes observées dans des cellules recouvrant Paris. Et que, par conséquent, ces caractéristiques personnelles ne seront donc pas tant à considérer comme des signaux ponctuels, mais comme le miroir des styles de vie qui sous-tendent les prix immobiliers. Si dans les estimations Ols initiales de la section 4, la variable OUVRIER s’interprète comme une caractéristique personnelle, dans l'analyse spatiale qui suit et qui constitue le cœur de l’article, il s’agit bien d’une variable agrégée.
4. Estimation par la méthode Ols
25 Le premier temps de cette recherche consiste à regarder les données de l’échantillon au niveau individuel, sans considérer les effets méso de l’arrondissement. L’estimation Ols ne prend pas en compte la structure spatiale. Le but est ici de montrer que la granularité des prix locaux individuels, ainsi que les granularités des caractéristiques, des objets et des personnes, sont substantielles ; de sorte que la structure spatiale ne peut être que très difficilement appréhendée avec ce niveau d’observation. La notion de « granularité » est employée pour indiquer que la structure est hétérogène entre les sous-marchés. Les articles de Barthélémy et al. (2013) ainsi que de Nappi-Choulet et Maury (2011), suggèrent en effet que le marché parisien présente un niveau élevé d’hétérogénéité spatiale.
26 Dans l’estimation, les prix sont les logarithmes des prix au mètre carré. Les caractéristiques des biens et des acheteurs sont des variables indicatrices. Les estimations sont présentées dans la Tableau 1. Elles sont réalisées pour chaque arrondissement, séparément ; ce qui oblige de fait à exclure les données de population. Au bas de ce tableau sont indiqués les résultats obtenus pour Paris dans son ensemble, avec les mêmes variables.
Arr | Effectif | PRIXM2 prix moyen au m² |
LNPRIX
Ln(prix moyen) | Écart-type des LNPRIX | Estimateurs Ols pour les LNPRIX | R² | |||||||||||
Constant | RECENT | SURF1 | SURF3 | DUPLEX | OUVRIER | ||||||||||||
1 | 269 | 7 813,1 | 8,931 | 0,265 | 8,917 | *** | 0,046 | -0,018 | 0,066 | 0,139 | * | 0,062 | 0,037 | ||||
2 | 425 | 6 642,0 | 8,763 | 0,287 | 8,800 | *** | -0,100 | -0,070 | * | 0,000 | 0,111 | ° | -0,035 | 0,029 | |||
3 | 652 | 7 266,7 | 8,862 | 0,251 | 8,854 | *** | 0,041 | -0,018 | 0,070 | ° | 0,123 | ** | 0,028 | 0,032 | |||
4 | 442 | 8 101,7 | 8,966 | 0,266 | 8,974 | *** | 0,136 | ° | -0,035 | 0,059 | 0,074 | ° | -0,119 | * | 0,042 | ||
5 | 693 | 7 999,2 | 8,963 | 0,229 | 8,947 | *** | 0,033 | -0,004 | 0,148 | *** | 0,115 | * | 0,001 | 0,047 | |||
6 | 629 | 9 224,5 | 9,091 | 0,290 | 9,082 | *** | 0,010 | -0,014 | 0,072 | * | 0,120 | * | -0,108 | 0,028 | |||
7 | 737 | 8 868,7 | 9,054 | 0,276 | 9,085 | *** | 0,139 | * | -0,137 | *** | 0,041 | 0,107 | * | 0,045 | 0,095 | ||
8 | 728 | 7 964,7 | 8,942 | 0,284 | 8,961 | *** | 0,165 | *** | -0,093 | *** | -0,004 | 0,082 | -0,098 | ° | 0,051 | ||
9 | 1 152 | 6 211,9 | 8,709 | 0,229 | 8,721 | *** | 0,046 | -0,041 | ** | 0,004 | 0,114 | ** | -0,006 | 0,019 | |||
10 | 1 501 | 5 446,1 | 8,579 | 0,222 | 8,586 | *** | 0,123 | *** | -0,026 | * | 0,001 | 0,122 | *** | -0,040 | ° | 0,029 | |
11 | 2 285 | 5 847,2 | 8,654 | 0,208 | 8,653 | *** | 0,090 | *** | -0,012 | 0,030 | 0,099 | *** | -0,018 | 0,023 | |||
12 | 1 583 | 5 857,0 | 8,655 | 0,208 | 8,661 | *** | -0,001 | -0,021 | * | 0,095 | *** | 0,163 | *** | -0,032 | ° | 0,029 | |
13 | 1 614 | 6 048,9 | 8,680 | 0,238 | 8,638 | *** | 0,259 | *** | 0,024 | * | 0,097 | ** | 0,116 | ** | -0,082 | *** | 0,161 |
14 | 1 457 | 6 327,2 | 8,732 | 0,208 | 8,731 | *** | 0,077 | *** | -0,013 | 0,051 | ° | 0,075 | * | -0,034 | ° | 0,024 | |
15 | 2 776 | 6 538,3 | 8,768 | 0,191 | 8,764 | *** | 0,148 | *** | -0,024 | *** | 0,075 | *** | 0,080 | *** | -0,015 | 0,067 | |
16 | 2 431 | 7 151,9 | 8,848 | 0,236 | 8,821 | *** | 0,058 | * | -0,021 | ° | 0,098 | *** | 0,124 | *** | -0,079 | *** | 0,069 |
17 | 2 677 | 6 133,1 | 8,695 | 0,238 | 8,718 | *** | 0,031 | -0,080 | *** | 0,103 | *** | 0,101 | *** | -0,034 | * | 0,079 | |
18 | 3 049 | 5 328,4 | 8,551 | 0,250 | 8,583 | *** | 0,055 | * | -0,058 | *** | 0,094 | ** | 0,143 | *** | -0,031 | * | 0,032 |
19 | 1 769 | 5 016,0 | 8,498 | 0,216 | 8,473 | *** | 0,123 | *** | 0,026 | * | 0,015 | 0,078 | * | -0,034 | * | 0,044 | |
20 | 1 959 | 5 192,2 | 8,536 | 0,196 | 8,523 | *** | 0,091 | *** | 0,003 | -0,054 | ° | 0,205 | *** | -0,008 | 0,047 | ||
Paris | 28828 | 6 282,6 | 8,709 | 0,273 | 8,708 | *** | 0,059 | *** | -0,034 | *** | 0,160 | *** | 0,136 | *** | -0,074 | *** | 0,065 |
Estimations Ols sur données individuelles (variables de population non incluses)
Les moyennes sont calculées sur la base des données individuelles, stratifiées par arrondissements.Niveaux de significativité : *** < 0,1 %** < 1 % * < 5 % ° < 10 %
Les variables sont des variables indicatrices. RECENT : construit après 1980 / SURF1 : surface inférieure à 40 m² / SURF3 : surface supérieure à 100 m² / DUPLEX : bien sur deux étages / OUVRIER : ouvriers, artisans, petits commerçants.
Niveaux de significativité : *** < 0,1 %** < 1 % * < 5 % ° < 10 %
Les variables sont des variables indicatrices. RECENT : construit après 1980 / SURF1 : surface inférieure à 40 m² / SURF3 : surface supérieure à 100 m² / DUPLEX : bien sur deux étages / OUVRIER : ouvriers, artisans, petits commerçants.
Arr | Effectif | PRIXM2 prix moyen au m² | Moyennes des variables par arrondissements | R² pour l’O ls | Indicateurs de déviation | Données de population | |||||||
QRECENT | QSURF1 | QSURF3 | QDUPLEX | QOUVRIER | PATTERN4 | PATTERN5 | REVARROND | DENS07 | POPGROW | ||||
1 | 269 | 7 813,1 | 0,026 | 0,480 | 0,130 | 0,078 | 0,033 | 0,037 | 0,802 | 0,769 | 34,041 | 97,9 | 0,95 |
2 | 425 | 6 642,0 | 0,024 | 0,569 | 0,064 | 0,068 | 0,073 | 0,029 | 0,674 | 0,607 | 25,008 | 219,7 | 2,26 |
3 | 652 | 7 266,7 | 0,038 | 0,546 | 0,078 | 0,074 | 0,055 | 0,032 | 0,689 | 0,638 | 28,399 | 295,5 | -0,42 |
4 | 442 | 8 101,7 | 0,025 | 0,493 | 0,093 | 0,102 | 0,061 | 0,042 | 1,137 | 1,025 | 30,337 | 178,6 | -1,96 |
5 | 693 | 7 999,2 | 0,027 | 0,547 | 0,084 | 0,039 | 0,051 | 0,047 | 0,304 | 0,330 | 30,206 | 246,7 | 1,92 |
6 | 629 | 9 224,5 | 0,027 | 0,421 | 0,151 | 0,064 | 0,029 | 0,028 | 0,647 | 0,652 | 44,063 | 210,9 | 0,12 |
7 | 737 | 8 868,7 | 0,020 | 0,366 | 0,243 | 0,047 | 0,035 | 0,095 | 0,908 | 0,854 | 52,090 | 140,4 | 1,40 |
8 | 728 | 7 964,7 | 0,054 | 0,282 | 0,383 | 0,044 | 0,034 | 0,051 | 1,584 | 1,442 | 42,070 | 100,9 | 0,20 |
9 | 1 152 | 6 211,9 | 0,043 | 0,421 | 0,117 | 0,030 | 0,081 | 0,019 | 0,184 | 0,168 | 26,715 | 269,0 | 0,23 |
10 | 1 501 | 5 446,1 | 0,033 | 0,465 | 0,075 | 0,035 | 0,079 | 0,029 | 0,240 | 0,218 | 18,285 | 323,1 | 1,39 |
11 | 2 285 | 5 847,2 | 0,053 | 0,540 | 0,048 | 0,030 | 0,088 | 0,023 | 0,263 | 0,235 | 20,343 | 412,6 | -0,67 |
12 | 1 583 | 5 857,0 | 0,066 | 0,457 | 0,044 | 0,016 | 0,106 | 0,029 | 0,371 | 0,345 | 21,936 | 223,6 | 0,64 |
13 | 1 614 | 6 048,9 | 0,126 | 0,440 | 0,035 | 0,022 | 0,094 | 0,161 | 0,693 | 0,621 | 18,261 | 250,7 | 0,28 |
14 | 1 457 | 6 327,2 | 0,076 | 0,496 | 0,048 | 0,025 | 0,078 | 0,024 | 0,311 | 0,283 | 23,417 | 238,3 | 0,01 |
15 | 2 776 | 6 538,3 | 0,062 | 0,432 | 0,057 | 0,026 | 0,087 | 0,067 | 0,224 | 0,200 | 25,850 | 273,9 | -0,30 |
16 | 2 431 | 7 151,9 | 0,042 | 0,256 | 0,298 | 0,038 | 0,049 | 0,069 | 1,138 | 1,037 | 42,356 | 201,9 | 3,69 |
17 | 2 677 | 6 133,1 | 0,033 | 0,454 | 0,118 | 0,028 | 0,089 | 0,079 | 0,258 | 0,231 | 27,910 | 290,4 | 2,05 |
18 | 3 049 | 5 328,4 | 0,036 | 0,593 | 0,021 | 0,017 | 0,120 | 0,032 | 0,509 | 0,485 | 16,348 | 318,7 | 0,35 |
19 | 1 769 | 5 016,0 | 0,133 | 0,445 | 0,028 | 0,020 | 0,146 | 0,044 | 0,766 | 0,748 | 14,023 | 271,0 | -1,16 |
20 | 1 959 | 5 192,2 | 0,084 | 0,504 | 0,026 | 0,031 | 0,121 | 0,047 | 0,435 | 0,426 | 15,383 | 324,4 | 0,42 |
Paris | 28828 | 6 282,6 | 0,057 | 0,460 | 0,093 | 0,032 | 0,087 | 0,065 | 26,784 | 252,1 | 0,91 |
Moyennes des variables, indicateurs de déviation et statistiques de population
Les variables sont des variables indicatrices. RECENT : construit après 1980 / SURF1 : surface inférieure à 40 m² / SURF3 : surface supérieure à 100 m² / DUPLEX : bien sur deux étages / OUVRIER : ouvriers, artisans, petits commerçants. Les quotas associés sont QRECENT, QSURF1, QSURF3, QDUPLEX, QOUVRIER. Les quotas présentés ici sont des moyennes par arrondissements ; les quotas dans les modèles spatiaux sont sur des moyennes calculées pour les 264 cellules.PATTERN4 et PATTERN5 sont des indicateurs de déviation par rapport à la moyenne urbaine. Le premier est calculé avec les seules variables hédoniques, le second avec toutes les variables.
REVARROND : revenu moyen annuel dans l’arrondissement (en milliers d’euros) / DENS07 : densité de population moyenne par hectare en 2007 / POPGROW : Croissance de la population de 2006 à 2007 en %. (Source Insee)
PATTERN4 et PATTERN5 sont des indicateurs de déviation par rapport à la moyenne urbaine. Le premier est calculé avec les seules variables hédoniques, le second avec toutes les variables.
REVARROND : revenu moyen annuel dans l’arrondissement (en milliers d’euros) / DENS07 : densité de population moyenne par hectare en 2007 / POPGROW : Croissance de la population de 2006 à 2007 en %. (Source Insee)
27 Dans un but descriptif, le Tableau 2 fournit différentes statistiques de l'échantillon. Pour chaque arrondissement et pour l'ensemble de Paris, les prix ont été moyennés. Les fonctions indicatrices binaires ont été sommées et divisées par la taille des échantillons, afin d’obtenir des fréquences dans chaque arrondissement. Cela permet de se faire une très bonne idée de la structure des transactions de l’échantillon.
28 Pour la ville de Paris, les estimateurs Ols de la constante et des variables sont hautement significatifs. Cependant, la segmentation en arrondissement produit des résultats variables, et plutôt médiocres pour les arrondissements centraux. Seule la significativité de la constante est régulière. Pour les caractéristiques, il n’y a que pour la variable DUPLEX qu’une certaine stabilité peut être observée. Les autres caractéristiques sont la plupart du temps non-significatives dans les arrondissements centraux. Pour les arrondissements extérieurs, leur significativité apparaît cependant plus satisfaisante. On pourrait en conclure que les arrondissements centraux sont caractérisés par une offre qui satisfait à une grande diversité de dotations de richesse, tandis que l'offre dans les arrondissements extérieurs semblerait mieux correspondre à des catégories sociales spécifiques.
29 Cette hypothèse est étayée par le fait que le prix moyen au m² est en général supérieur à 7 500 euros dans les arrondissements 1 à 8, tandis les autres présentent des prix moins élevés, inférieurs à 6 000 euros dans certains cas. Ces seuils vont jouer un rôle important dans la suite de l’analyse spatiale. De plus, en approximant la dispersion des prix par l’écart-type, on peut constater qu’elle est plus importante pour les arrondissements internes. Cela pourrait être la raison principale qui expliquerait la significativité renforcée dans les quartiers périphériques.
30 Concernant la qualité de l'ajustement, le R² est très réduit. Même pour Paris dans son ensemble il n’est que de 0,065. Cela n’est pas très étonnant car dans les grands échantillons les variables présentent souvent une granularité substantielle. Mais cela a pour conséquence que des estimateurs très significatifs dans un arrondissement donné, vont ressortir artificiellement en termes de significativité lorsque l’on considérera l’échantillon dans son ensemble. C’est, en effet, un fait général que dans des régressions de type Ols avec un R2 faible, les observations probantes viennent soutenir la significativité d'une variable pour tout l'ensemble
31 Des variables supplémentaires ont été testées (parking, étage, ascenseur, statut matrimonial, âge de l'acheteur) mais elles n’ont pas produit de résultats probants. Notons que dans leur approche de régressions-quantiles, Barthélémy et al. (2013) ont obtenu un résultat significatif pour la combinaison étage-ascenseur.
32 La significativité des caractéristiques devient un point-clé lorsqu’on la considère en lien avec la question critique de la magnitude des estimateurs. La constante absorbe en effet la plupart du pouvoir explicatif, en prenant des valeurs très proches des prix moyens. Tandis que les coefficients associés aux caractéristiques ne produisent que des fluctuations de taille réduite autour de la constante ; fluctuations positives pour RECENT, DUPLEX et souvent pour SURF3, négatives pour OUVRIER et la plupart du temps aussi pour SURF1. Par conséquent, sur la base de la magnitude de la constante, on peut suspecter que le niveau d’autocorrélation spatiale est élevé, et donc que l’effet de diffusion serait prépondérant dans la formation du prix. L’exploration de cette hypothèse constitue la suite de ce travail.
5. Un quadrillage à travers Paris
33 La surface de Paris est un ovale de 8,40 km de hauteur pour 10,85 km de longueur. Il était pratique de recouvrir cette surface d’une grille rectangulaire composée de dix-huit cellules verticalement et vingt horizontalement. Les cellules sont quasiment carrées, avec un côté de l'ordre de 500 m. Il convient de préciser que le choix de vingt cellules horizontales n'a rien à voir avec les vingt arrondissements de Paris.
34 La localisation géographique des observations est fournie par la base de données. La relation entre le quadrillage et les arrondissements est apparente dans le Tableau 3. La majorité des cellules s’inscrivent dans un seul arrondissement. Certaines peuvent toutefois comporter des observations de plusieurs arrondissements ; elles sont alors assignées à l'arrondissement le plus fréquent parmi leurs observations. Il y a 264 cellules avec des observations. La Seine est marquée en gris clair. La partie de Paris localisée au sud de la Seine est appelée « Rive gauche », tandis que la partie nord est appelée « Rive droite ».
35 La répartition du nombre d’observations dans chaque cellule est inégale étant donné les variations de densité entre les arrondissements. Il n’y a cependant que quelques cellules avec très peu d'observations. La base Bien en Île-de-France est correctement stratifiée et le taux de collecte est de l’ordre de 80 %.
36 Tout découpage spatial pouvant induire des effets artificiels (« Modifiable areal unit problem », cf. par exemple Briant et al., 2010), les estimations ont été recalculées avec un quadrillage plus resserré d’un facteur deux, horizontalement et verticalement. Les résultats sont sensiblement équivalents.
37 Les prix moyens par mètre carré dans les cellules du Tableau 3 sont élevés. Les plus élevés, supérieurs à 8 500 euros par mètre carré, sont localisés dans le centre de Paris. Ils sont contenus dans une bande le long des deux côtés de la Seine, allant des Champs-Élysées à l'ouest jusqu'au quartier du Marais à l'est. Lors de la discussion des résultats, les arrondissements 5, 6 et 7, à prix élevés, seront mis en avant.
NRV | NRH1 | NRH2 | NRH3 | NRH4 | NRH5 | NRH6 | NRH7 | NRH8 | NRH9 | NRH10 | NRH11 | NRH12 | NRH13 | NRH14 | NRH15 | NRH16 | NRH17 | NRH18 | NRH19 | NRH20 |
18 |
4,82 (18) | |||||||||||||||||||
17 |
4,74 (17) |
5,17 (17) |
5,08 (18) |
4,89 (18) |
4,86 (18) |
4,75 (18) |
3,76 (18) |
7,32 (19) |
4,93 (19) |
3,97 (19) | ||||||||||
16 |
5,01 (17) |
5,56 (17) |
4,95 (17) |
5,35 (17) |
5,67 (18) |
5,68 (18) |
5,32 (18) |
4,36 (18) |
4,26 (18) |
4,46 (19) |
4,85 (19) |
4,84 (19) | ||||||||
15 |
8,33 (17) |
6,21 (17) |
6,99 (17) |
6,30 (17) |
6,07 (17) |
5,88 (17) |
5,98 (18) |
6,90 (18) |
5,28 (18) |
4,48 (18) |
4,56 (18) |
4,79 (19) |
4,88 (19) |
4,84 (19) |
4,51 (19) | |||||
14 |
6,03 (17) |
6,74 (17) |
6,80 (17) |
6,91 (17) |
6,53 (17) |
6,34 (17) |
6,15 (9) |
6,23 (18) |
5,72 (9) |
4,87 (10) |
5,11 (10) |
5,09 (19) |
5,78 (19) |
5,19 (19) |
4,84 (19) | |||||
13 |
6,73 (17) |
7,12 (17) |
7,07 (17) |
7,69 (8) |
7,28 (8) |
6,63 (8) |
6,53 (9) |
6,37 (9) |
6,10 (9) |
5,41 (10) |
5,41 (10) |
5,12 (10) |
5,41 (19) |
5,41 (19) |
4,63 (19) |
4,73 (19) | ||||
12 |
8,30 (16) |
7,59 (16) |
7,66 (16) |
9,17 (8) |
8,13 (8) |
7,66 (8) |
8,02 (8) |
6,48 (9) |
6,07 (9) |
6,00 (9) |
5,44 (10) |
5,71 (10) |
5,22 (10) |
4,95 (19) |
5,2 (20) |
5,11 (20) |
5,14 (20) |
4,62 (20) | ||
11 |
6,91 (16) |
7,57 (16) |
7,56 (16) |
7,58 (16) |
8,13 (16) |
10,70 (8) |
9,82 (8) |
9,12 (8) |
8,80 (1) |
8,10 (2) |
6,48 (2) |
6,08 (3) |
6,36 (3) |
5,66 (11) |
5,38 (11) |
4,97 (20) |
5,31 (20) |
5,32 (20) |
4,76 (20) | |
10 |
7,22 (16) |
8,04 (16) |
7,73 (16) |
7,44 (16) |
9,21 (7) |
8,98 (7) |
9,64 (7) |
9,73 (7) |
7,81 (1) |
8,06 (1) |
6,94 (1) |
7,40 (3) |
7,33 (3) |
6,12 (11) |
5,77 (11) |
5,70 (11) |
5,62 (20) |
5,39 (20) |
4,93 (20) | |
9 |
9,45 (16) |
7,24 (16) |
7,35 (16) |
7,41 (16) |
8,88 (16) |
8,36 (7) |
8,17 (7) |
9,23 (7) | 10,55 (7) |
9,63 (7) |
9,20 (6) |
7,22 (1) |
8,07 (4) |
8,44 (4) |
6,47 (11) |
5,96 (11) |
5,71 (11) |
5,32 (20) |
5,04 (20) |
4,49 (20) |
8 |
6,97 (16) |
6,90 (16) |
6,90 (16) |
7,00 (16) |
7,34 (15) |
7,74 (15) | 8,29 (7) |
8,87 (7) |
10,54 (7) |
10,25 (6) |
9,89 (6) |
9,24 (5) |
10,40 (4) |
7,66 (4) |
6,80 (11) |
6,16 (11) |
5,86 (11) |
5,58 (11) |
5,38 (20) |
5,23 (20) |
7 |
6,83 (16) |
7,08 (16) |
6,41 (16) |
6,21 (15) |
6,77 (15) |
6,65 (15) |
7,55 (15) |
8,20 (7) |
8,40 (6) |
9,38 (6) |
8,59 (5) |
8,55 (5) |
8,14 (5) |
7,10 (4) |
6,22 (11) |
5,85 (12) |
6,08 (12) |
5,92 (12) |
5,84 (12) |
5,51 (20) |
6 |
6,33 (16) |
6,45 (16) |
6,34 (15) |
6,36 (15) |
6,43 (15) |
6,48 (15) |
6,54 (15) |
7,11 (15) |
6,85 (14) |
7,97 (6) |
7,95 (5) |
8,24 (5) |
7,86 (5) |
7,19 (5) |
6,90 (12) |
6,23 (12) |
5,53 (12) |
5,88 (12) |
5,99 (12) |
5,40 (12) |
5 |
5,73 (16) |
5,84 (16) |
6,34 (15) |
6,07 (15) |
6,35 (15) |
6,51 (15) |
6,22 (15) |
7,02 (15) |
6,76 (14) |
7,58 (14) |
7,74 (14) |
7,24 (13) |
6,87 (13) |
6,06 (13) |
6,12 (13) |
7,21 (12) |
5,73 (12) |
5,81 (12) |
5,87 (12) |
4,91 (12) |
4 |
5,73 (15) |
6,34 (15) |
6,08 (15) |
6,07 (15) |
6,02 (14) |
6,40 (14) |
6,57 (14) |
6,35 (14) |
7,01 (13) |
6,16 (13) |
6,35 (13) |
5,62 (13) |
8,17 (13) |
6,38 (12) |
4,99 (12) |
5,54 (12) | ||||
3 |
5,54 (15) |
5,47 (14) |
5,82 (14) |
6,09 (14) |
6,16 (14) |
5,94 (14) |
6,17 (13) |
6,07 (13) |
5,47 (13) |
5,51 (13) |
7,00 (13) |
7,65 (13) | ||||||||
2 |
5,71 (14) |
6,22 (14) |
6,71 (13) |
5,87 (13) |
5,76 (13) |
4,91 (13) |
4,64 (13) |
5,42 (13) | ||||||||||||
1 |
6,40 (14) |
6,13 (14) |
4,95 (13) |
Carte de la grille 20*18 sur Paris
Le premier chiffre représente le prix moyen au mètre carré, en milliers d’euros, dans la cellule. Le second, entre parenthèses, le numéro de l’arrondissement auquel la cellule est rattachée (majoritairement).NRV : indice de grille vertical ; NRH : indice de grille horizontal.
Gris clair : Seine. Gris foncé : île de la Cité.
NRV : indice de grille vertical ; NRH : indice de grille horizontal.
Gris clair : Seine. Gris foncé : île de la Cité.
38 Contrairement à ce que l'on peut pourrait penser, le 16e arrondissement présente un prix moyen qui n'est pas particulièrement important. Seules ses cellules proches de la Place de l'Étoile se rapprochent des prix maximaux. Les prix dans les autres quartiers périphériques sont beaucoup plus faibles, en particulier à l'est de Paris. Les niveaux de prix les plus bas sont observés dans les arrondissements 11, 12, 13, 19 et 20. L'estimation spatiale démontrera que les arrondissements à prix faibles exercent une diffusion plus faible.
39 Les quotas de caractéristiques sont présentés dans le Tableau 2. Pour une variable binaire, le quota désigne la fréquence de réalisation de sa modalité, dans un sous-ensemble d’observations. Pour différencier les variables binaires de niveau individuel, des quotas agrégés, la lettre Q est rajoutée au nom de la variable. Dans un but descriptif, les fréquences obtenues pour QRECENT, QSURF1, QSURF3, QDUPLEX et QOUVRIER, sont calculées en faisant la moyenne des variables indicatrices dans les différents arrondissements (dans l’estimation, ces fréquences sont par contre calculées sur les cellules). Les résultats obtenus sont assez variables. Dans l’ensemble, on peut constater que les quotas élevés de grands appartements sont associés à des prix de vente au-dessus de la moyenne. Les biens des ouvriers, artisans et petits commerçants sont par contre associés à des prix inférieurs à la moyenne.
40 Afin d’obtenir un indicateur condensé des caractéristiques hédoniques et personnelles, une mesure appelée PATTERN est introduite. Elle donne une idée du caractère plus ou moins granulaire de chaque arrondissement. La mesure est nommée PATTERN4 lorsqu’elle n’inclut pas les ouvriers, et PATTERN5 lorsqu’elle est construite avec les 5 caractéristiques. Le calcul est simple à décrire. Pour une caractéristique k, on utilise le quota moyen qik dans l’arrondissement i, et le quota qParis,k pour Paris (k = 1,…,4 ou k = 1,…,5). L’indicateur PATTERN se calcule par :
41 Chaque caractéristique a le même poids. L’indicateur renseigne ainsi sur l’écart entre les quotas dans un arrondissement et les quotas pour Paris. PATTERN vaut 0 si et seulement si tous les quotas dans un arrondissement sont égaux à ceux de la ville. Le Tableau 2 permet de constater que pour les arrondissements centraux, PATTERN ne prend une valeur faible que pour le 5e et que son niveau est élevé pour les autres. La structure des arrondissements centraux est donc assez distincte de celle de l’ensemble de la ville, leur granularité est forte. Pour les arrondissements périphériques, PATTERN est assez hétérogène, avec des cas comme le 9e qui est assez proche de la moyenne urbaine, et des écarts plus importants comme pour le 16e – arrondissement segmenté entre une partie nord près de la place de l’Étoile, très prospère, et une partie sud moins favorisée.
42 Un dernier point doit être considéré à propos des données de population, il se révélera central pour expliquer la formation des prix. Ces variables de population sont les revenus moyens par personne, la densité de la population par hectare et la croissance de la population. Elles sont disponibles par arrondissement en 2007 et sont présentées dans le Tableau 2. Paris est affecté par une disparité de revenus prononcée. Le revenu par personne REVARROND montre un très grand écart entre les hauts et les bas revenus. La valeur moyenne la plus élevée dans le 7e est presque quatre fois plus importante que la plus basse dans le 19e. Paris est aussi une ville dense : la densité moyenne DENS07 252 personnes par hectare. Ici aussi on peut relever des écarts substantiels, mais les espaces vides au centre de Paris (Champ de Mars, Jardin du Luxembourg, Place de la Concorde…) doivent être pris en compte. Les grands appartements sont plus souvent négociés dans les zones à faible densité. Enfin, on peut remarquer que la population de Paris a augmenté, de 2006 à 2007 POPGROW indique un accroissement de 0,9 %. Une grande disparité peut cependant être notée : une baisse de presque 2 % pour le 4e, une augmentation de 3,7 % dans le 16e. En résumé, les plus fortes densités sont observées dans le nord-est, tandis que la plus forte croissance se produit dans l'ouest (à l’exception de valeurs extrêmes positives mais isolées pour le 2e et le 5e). Parmi les densités les plus basses et les croissances les plus faibles on retrouve l’île de la Cité. On peut en conclure que les personnes les plus riches préfèrent les arrondissements les moins denses, mais que le nombre des grands appartements n’y est pas assez important pour produire une hausse notable de la population. Pour les personnes plus modestes, elles occupent des appartements ayant un prix inférieur à la moyenne et situés dans des arrondissements plus denses.
43 Le point central est maintenant de déterminer dans quelle mesure la formation des prix a été le fait d’une diffusion globale du prix au cours de l’année 2007, année économiquement favorable, ou bien si cette formation a été le fait des caractéristiques ponctuelles des biens échangés. Des estimations Sar sont employées à cette fin. Elles utilisent les logarithmes du revenu LNREVARRON et de la densité LNDENS. De plus, afin de réduire les problèmes de correspondance entre les cellules et les arrondissements pour les cellules à cheval sur plusieurs arrondissements, une pondération par les effectifs est utilisée afin d’obtenir les logarithmes des densités WLNDENS et de la croissance de la population WPOPGROW. Pour plus de facilité, le logarithme du revenu de la cellule, le logarithme de sa densité et le logarithme de la croissance de sa population, seront repérés par l’expression « population de la cellule ». Cela est à mettre en rapport avec l’expression « caractéristiques de la cellule » qui se rapporte aux cinq quotas.
6. Le problème de la spécification Sdm (Spatial Durbin model)
44 Les données utilisées pour évaluer le processus de diffusion des prix sont basées sur 264 observations qui correspondent aux cellules non vides de la grille. Ces données constituent un agrégat à l'échelle méso des caractéristiques hédoniques et personnelles, moyennées au sein de chaque cellule. Ces agrégats vont être utilisés pour détailler la force de diffusion, représentée explicitement par le paramètre Rho dans le modèle Sar, paramètre rendant compte de l'autocorrélation spatiale, tout en tentant de limiter les effets de la granularité des caractéristiques locales. Les arguments précédents ont en effet mis en évidence que nous ne savions pas précisément quelles parties de Paris contribuaient à la significativité globale des estimateurs initiaux. Il existe ainsi des arrondissements où les caractéristiques hédoniques et personnelles expliquent mal la formation des prix. Comme nous le verrons, une part importante de causalité n’est pas le fait des données individuelles mais elle provient des données de population.
45 L’échelle de l’agrégation explique les légères différences entre les statistiques de la grille et les premiers résultats du niveau individuel. On peut observer que le prix moyen pour l’ensemble de Paris est maintenant de 6 517,40 euros par mètre carré, ce qui est supérieur aux 6 282,60 euros par mètre carré du Tableau 1. Ce résultat est une conséquence du fait que le regroupement est non pondéré. Étant donné que les prix au sein des arrondissements intérieurs sont plus élevés, mais que le nombre d'observation est plus faible, le prix moyen non pondéré du réseau est nécessairement plus important. En passant en logarithme cette anomalie se réduit (le logarithme du prix moyen vaut 8,761 pour un prix moyen de exp(8,761) = 6 380,50 euros). Ces différences pourraient être réduites davantage en utilisant une grille plus fine.
46 Les modèles spatiaux de type Sar se généralisent au modèle Sdm qui explique la variable endogène et sa forme retardée par les variables exogènes retardées. La spécification de la matrice de poids W est alors centrale. Différents essais ont été effectués pour définir les distances et les voisinages. Ils ont abouti à des résultats similaires. Par conséquent nous avons retenu la spécification la plus simple : une matrice de voisinages constituée de 0 et de 1, 1 repérant les voisins immédiats (cf. LeSage et Pace, 2009). Cette structure est présentée dans le Tableau 1, et l’on peut trouver en annexe un bref rappel du modèle Sar.
47 L’importance d’identifier un modèle d’économétrie spatiale bien adapté est évidente en considérant la statistique de Moran du Tableau 2. En se basant sur la grille et la matrice de poids W, la probabilité de l’hypothèse nulle d’absence d’autocorrélation spatiale est pratiquement de zéro pour toutes les variables. Nous débutons avec des modèles de type Sar. La première difficulté est la multi-colinéarité entre les variables (cf. Annexes, Tableau 10). À l’exception de QRECENT et QDUPLEX toutes les variables présentent des corrélations bi-variées de Pearson significatives au niveau de 0,1 %. Différents tests de spécification doivent être réalisés afin de déterminer quelles variables pourraient modifier les résultats en étant incluses ou exclues.
48 Des estimations de type Sar sont effectuées pour expliquer les logarithmes des prix avec les huit variables : QRECENT, QSURF1, QSURF3, QDUPLEX, QOUVRIER, LNREVARRON, WLNDENS et WPOPGROW (cf. Annexes, Tableau 9). Le premier modèle est un modèle Sdm complet où chaque variable apparaît à la fois directement et sous sa forme retardée (colonne Sdm L8). Les lettres LAG sont rajoutées au nom des variables pour désigner leur forme retardée. Les variables retardées sont retranchées progressivement ; d’abord les moins significatives (colonne Sar L4), puis QRECENT et QSURF3 (colonne Sar L2), et enfin en les retirant toutes (colonne Sar L0).
49 On peut noter que tous les modèles ont des très significatifs et assez élevés, entre 0,673 et 0,711. Les R² de Nagelkerke sont assez satisfaisants avec des valeurs autour de 0,88 ; les écarts-types relatifs des résidus sont également très acceptables, de l’ordre de 0,0075. Selon le critère Aic, le modèle Sar L4 semble être le plus efficace. Mais il présente la valeur la plus élevée pour , et l’hypothèse d’absence d’autocorrélation des résidus selon le LM-test doit être rejetée. Il n’y a pas un unique modèle qui regroupe à lui seul les meilleures propriétés statistiques. En allant de L8 vers L0, on ne détecte pas d’ordre monotone que ce soit pour la mesure principale , pour le critère Aic ou encore pour l’hypothèse nulle d’absence d’autocorrélation des résidus.
50 Le point le plus délicat est néanmoins l’incertitude quant à l’effet causal. Les niveaux élevés mais très proches des laissent trop de place à la spéculation, en particulier au sujet de la part que prend la diffusion globale dans la formation des prix. La section suivante cherche par conséquent à identifier une spécification alternative, afin de pouvoir mieux déterminer les contributions respectives ainsi que le mécanisme.
7. Estimation spatiale avec des instruments de prix retardés
51 La magnitude des résulte du fait que l'échantillon des méso-agrégats présente une multi-colinéarité et une autocorrélation spatiale. La difficulté d'arriver à une interprétation propre pose une question : si on remplace les prix retardés spatialement par leurs prédicteurs, quelle part de l’autocorrélation spatiale absorbent-ils, et quelles variables expliquent le mieux ces prédicteurs ? Les prédicteurs sont désignés par les lettres PRED ajoutées au nom des variables.
Logarithme des prix retardé | Les variables explicatives sont des moyennes des revenus et des populations par arrondissement. | ||||||||||
LAGLNPRIX par m² | Les variables de densité et de croissance de population sont pondérées par les effectifs des cellules. | ||||||||||
Moyenne | 8,762 | ||||||||||
Ecart-type | 0,184 | ||||||||||
Variable | Moyenne | Estimations Ols | |||||||||
Constante | 7,298 | *** | 11,847 | *** | 8,718 | *** | 7,728 | *** | 8,098 | *** | |
LAGLNREVARRON | 3,213 | 0,456 | *** | 0,491 | *** | 0,361 | *** | ||||
LAGWLNDENS | 5,487 | -0,562 | *** | -0,093 | ** | -0,095 | *** | ||||
LAGWPGROW | 0,722 | 0,061 | *** | -0,043 | *** | -0,037 | *** | ||||
LAGQRECENT | 0,079 | 0,195 | *** | ||||||||
LAGQSURF1 | 0,419 | 0,245 | *** | ||||||||
LAGQSURF3 | 0,120 | 0,213 | *** | ||||||||
LAGQDUPLEX | 0,034 | 0,492 | ** | ||||||||
LAGQOUVRIER | 0,085 | -1,278 | *** | ||||||||
R² | 0,772 | 0,604 | 0,139 | 0,833 | 0,896 |
52 Le Tableau 4 présente les estimations Ols à partir desquelles les variables instrumentales ont été construites. La variable endogène est le logarithme du prix retardé LAGLNPRIX, pour les 264 cellules, expliqué par les variables de population de la cellule. Les trois premières colonnes fournissent les résultats pour les variables de population considérées séparément : LAGLNREVARRON (le logarithme du revenu de l’arrondissement, retardé spatialement), LAGLNWDENS (le logarithme des densités retardées) et LAGWPGROW (la croissance de la population retardée spatialement). On peut voir que toutes les variables sont fortement significatives, mais que la qualité de l’ajustement, mesuré par le R², diminue avec l’ordre des colonnes. La 4e colonne présente les résultats obtenus avec les trois variables utilisées simultanément. Le R² atteint alors le niveau très élevé de 0,8333. Ces estimations sont instructives. Comme on peut s’y attendre, les arrondissements à revenus élevés accroissent les prix. L’offre est fortement orientée par les revenus locaux. Les prix se réduisent par contre avec la densité et la croissance de la population, mais les élasticités sont, en valeur absolue, plus faibles. Une densité élevée rend moins aisée le fait de demander un prix plus important. Et il en va de même avec les situations de croissance forte de la population. En d’autres termes, une part importante des individus ont apparemment été attirés par les prix bas. Même si l’on doit garder à l’esprit que les deux variables de densité de population et de croissance sont assez disparates entre les arrondissements. On peut aussi s‘interroger sur ce qui arrive si l’on combine les données de population et les caractéristiques dans les cellules. L’estimation est présentée dans la colonne 5. Les données de population restent toujours significatives. Les élasticités pour les caractéristiques sont toutes positives, à l’exception de LAGQOUVRIER. L’inclusion des caractéristiques réduit notablement l’élasticité des revenus retardés, alors que les élasticités de la densité retardée et de la croissance de la population restent à des niveaux similaires. La valeur élevée du R² à 0,896 mérite d’être relevée. Les prix retardés semblent ainsi être très bien expliqués par le regroupement des données de population et celles relatives aux caractéristiques
53 À partir des estimateurs Ols pour les données de population (colonne 4), on définit la variable instrumentale PREDLAGLNPRIX, ainsi que la variable instrumentale PREDTOTLNPRIX avec tous les estimateurs (colonne 5). Ces variables instrumentales sont définies comme les prédicteurs pour les 264 cellules. Elles sont calculées avec les variables exogènes des colonnes 4 et 5 ; le terme LAG s'applique à chaque cellule de la grille. L’ajustement un peu supérieur du second instrument n’aboutit pas nécessairement au meilleur modèle Sar comme nous allons le voir.
54 Nous regardons en premier lieu dans le Tableau 5 les spécifications les plus simples ; celles-ci fournissent un argument supplémentaire en faveur du modèle Sar avec prédicteurs instrumentaux. Il s'agit des estimations Ols du logarithme du prix, avec pour variables exogènes les caractéristiques et les variables de population, mais sans considérer de variables retardées ni les prédicteurs instrumentaux (colonnes 1 et 2). Avec les seuls quotas QRECENT, QSURF1, QSURF3, QDUPLEX et QOUVRIER, le résultat est étonnement faible. Seuls les grandes surfaces et les ouvriers sont significatifs, tandis que les appartements récents et les appartements en duplex ne sont pas du tout significatifs. La constante paraît absorber tout le pouvoir explicatif, tandis que les variables QRECENT et QDUPLEX souffrent de l'effet de granularité mentionné dans la section 4. La situation change si l'on prend également en compte les variables de population (colonne 2). Le logarithme des revenus et les taux de croissance de la population résorbent une partie de la granularité, de sorte que les appartements récents, les appartements petits et même les duplex deviennent significatifs. Les statistiques du modèle sont aussi plus satisfaisantes. Ces éléments amènent à se poser la question de savoir si les prix dans les cellules ne seraient pas influencés par les prix des voisins et plus largement par les prix dans le reste de la ville.
55 Les résultats centraux des estimations Sar sont présentés dans les colonnes 6, 7 et 8 du Tableau 5. La logique de la démarche se formule par la question suivante : si on explique une partie de la formation du prix par les instruments de prix retardés, dont les déterminations causales sont connues par construction, quelle proportion reste-t-il à expliquer par le modèle Sar, modèle qui affectera alors l’autocorrélation spatiale de la diffusion globale des prix à une origine inconnue ? De plus, si l’on inclut les caractéristiques dans l’instrument de prix, peut-on éviter le problème de granularité que nous avions observé pour les arrondissements centraux ?
Estimations Sar des logarithmes de prix, par les prédicteurs des logarithmes de prix retardés et les données de population
Logarithme des prix LNPRIX | Les variables de densité et de croissance de population sont pondérées par les effectifs des cellules. | |||||||||||
Moyenne / Ecart-type | 8,761 | 0,206 | ||||||||||
Variable | Moyenne | Écart-type | Estimations Ols pour LNPRIX | Estimations Sar pour LNPRIX | ||||||||
Constante | 8,709*** | 7,868*** | 0,962* | 0,918* | 1,335 | 0,667* | 0,412 | 1,004 | ||||
PREDLAGLNPRIX | 8,762 | 0,168 | 0,884*** | 0,799*** | 0,289*** | 0,187* | ||||||
PREDTOTLNPRIX | 8,762 | 0,174 | 0,881*** | 0,266*** | ||||||||
QRECENT | 0,079 | 0,146 | -0,029 | 0,174*** | 0,213*** | 0,219*** | 0,209*** | 0,223*** | 0,232*** | 0,224*** | ||
QSURF1 | 0,419 | 0,160 | 0,168* | 0,208*** | 0,161*** | 0,204*** | 0,197*** | 0,142*** | 0,156*** | 0,151*** | ||
QSURF3 | 0,120 | 0,150 | 0,717*** | 0,307*** | 0,201*** | 0,244*** | 0,285*** | 0,195*** | 0,193*** | 0,224*** | ||
QDUPLEX | 0,034 | 0,043 | 0,303 | 0,355* | 0,455** | 0,394** | 0,341* | 0,389*** | 0,373*** | 0,332** | ||
QOUVRIER | 0,085 | 0,064 | -1,312*** | -0,674*** | -0,505*** | -0,589*** | -0,604*** | -0,333*** | -0,334*** | -0,343*** | ||
LNREVARRON | 3,213 | 0,380 | 0,366*** | 0,067 | 0,069* | |||||||
WLNDENS | 5,488 | 0,293 | -0,064° | 0,024 | 0,015 | |||||||
WPOPGROW | 0,719 | 1,281 | -0,035*** | -0,016* | -0,014** | |||||||
Rho | 0,648*** | 0,654*** | 0,655*** | |||||||||
pseudo-R2 | 0,524 | 0,758 | 0,814 | 0,800 | 0,805 | 0,867 | 0,871 | 0,876 | ||||
relstd(résidus) | 0,0164 | 0,0117 | 0,0102 | 0,0106 | 0,0106 | 0,0080 | 0,0079 | 0,0077 | ||||
logLikelihood / df | 141,37 | 230,310 | 265,58 | 255,58 | 258,810 | 309,59 | 314,19 | 318,7 11 | ||||
Aic | -268,6 | -440,7 | -515,1 | -495,0 | -495,7 | -600,9 | -610,1 | -613,4 | ||||
Probabilité d’autocorrélation résiduelle selon LM-Test | 0,055 | 0,218 | 0,558 |
Estimations Sar des logarithmes de prix, par les prédicteurs des logarithmes de prix retardés et les données de population
Niveaux de significativité : *** < 0,1 %** < 1 % * < 5 % ° < 10 % 264 observations.Les R² pour les Ols sont usuels. Dans les autres cas il s’agit des pseudo-R² de Nagelkerke.
Relstd(résidus) désigne l’écart-type des résidus du modèle divisés par les prix moyens observés.
Probabilité d’autocorrélation résiduelle : probabilité de l’hypothèse nulle selon le LM-test.
Les R² pour les Ols sont usuels. Dans les autres cas il s’agit des pseudo-R² de Nagelkerke.
Relstd(résidus) désigne l’écart-type des résidus du modèle divisés par les prix moyens observés.
Probabilité d’autocorrélation résiduelle : probabilité de l’hypothèse nulle selon le LM-test.
56 Nous considérons tout d’abord, les colonnes avec les instruments de prix (colonnes 3,4, 6 et 7). Que ce soit pour l’Ols ou le Sar, les instruments de prix sont très significatifs. De plus, les statistiques relatives aux résidus et à l’indicateur Aic sont meilleures pour le Sar que pour l’Ols.
57 Que suggère le modèle Sar quant au choix du meilleur instrument ? On peut constater que PREDLAGLNPRIX présente deux statistiques un peu meilleures que PREDTOTLNPRIX : le R² de Nagelkerke est à 0,871 contre 0,867, et l’Aic est de -610,1 contre -600,9. L’hypothèse nulle d’absence d’autocorrélation des résidus, selon le LM-test, ne peut pas être rejetée, avec une probabilité de 0,218 contre 0,055. L’autocorrélation spatiale avec PREDLAGLNPRIX se maintient au niveau de , et elle est un peu supérieure au obtenue avec PREDTOTLNPRIX. Globalement, les différences entre les Rho et entre les statistiques sont faibles, à l’exception du LM-Test qui suggèrerait un problème de spécification avec PREDTOTLNPRIX.
58 Cela change-t-il si les données de population sont également prises en compte dans l’estimation Sar ? Ces variables absorbent un peu de la significativité des autres variables (colonne 8), tandis que les statistiques restent à peu près du même niveau. On constate cependant deux améliorations. La Log-vraisemblance est un peu plus élevée, ce qui abaisse la statistique Aic à -613,4. Mais la plus importante est certainement l’absence totale d’autocorrélation des résidus. L’hypothèse nulle d’absence d’autocorrélation du LM-test s’élève ainsi à 0,558. Et cela même si WLNDENS est exclue (de sorte que cette variable ne puisse pas exercer les légers effets de multi-colinéarité qu’elle recèle).
59 Le choix effectué est le suivant. Étant donné que les coefficients estimés avec les deux instruments sont relativement proches, nous retenons la spécification Sar avec PREDLAGLNPRIX (dernière colonne du Tableau 5), comme étant la meilleure. Nous tolérons une colinéarité entre W*LNPRIX et PREDLAGLNPRIX afin d’obtenir de meilleurs statistiques. Le problème constaté avec les données individuelles et mentionné à la fin de la section 4, à savoir l’importation de la granularité des caractéristiques des cellules des arrondissements centraux dans les instruments de prix, est ainsi évité. Il est d’ailleurs probable qu’il s’agisse là de la cause de la mauvaise spécification détectée pour PREDTOTLNPRIX par le LM-Test.
8. Le pouvoir de la diffusion des prix dans les arrondissements
60 La dernière étape de cette réflexion consiste en le classement des arrondissements selon leur pouvoir de diffusion. Nous allons constater que les effets de diffusion sont principalement dirigés par le niveau des revenus et la densité de population dans l’arrondissement, plutôt que par les effets ponctuels des objets individuels. Il convient aussi de prendre garde à ne pas sous-estimer les résidus résultant de l’emploi d’une variable instrumentale (Cameron et Trivedi, 2005). Ceci va nous permettre d’établir que la diffusion est forte dans les principaux arrondissements à prix élevés, mais qu’elle peut aussi être forte dans les arrondissements à prix modérés qui présentent un mélange adéquat d’offres pour les différentes classes sociales.
61 L'idée de la procédure est simple : on calcule avec le modèle retenu la contribution partielle de chaque arrondissement à la valeur ρ. Retrancher de l’échantillon un arrondissement fortement diffusant diminuera le niveau de . Inversement, l’omission d’un arrondissement avec une faible diffusion l’augmentera. L'arrondissement assigné à une cellule sera le plus représenté dans les observations de la cellule.
62 Les résultats obtenus avec le modèle Sar, la variable instrumentale PREDLAGLNPRIX et les autres variables exogènes de la dernière colonne du Tableau 5, sont répertoriés dans le Tableau 6. Les arrondissements dont les prix sont supérieurs à 7 500 euros sont en gris clair, ceux avec des prix sous 6 000 euros sont en gris foncé. Les seuils délimitant le caractère fort ou faible des diffusions sont bien sur un peu arbitraires. Ils sont fixés tels que repérés par les lignes horizontales de ce tableau. Les arrondissements à forte diffusion sont les 5e, 14e, 15e et 7e, et ceux avec des diffusions faibles sont les 12e, 17e et 19e. Il s’agit là de deux diffusions, agissant dans des sens opposés. Étant donné les niveaux des Rho, il faudrait en toute rigueur parler de diffusions « fortes » vs « moins fortes », mais pour plus de simplicité ce sont les termes « forts » et « faibles » qui sont employés.
ARR | Pm² | SARRHO | PATTERN4 | PATTERN5 |
5 | 7 999,2 | 0,602 | 0,981 | 0,927 |
14 | 6 327,2 | 0,627 | 0,758 | 0,786 |
15 | 6 538,3 | 0,632 | 0,882 | 0,955 |
7 | 8 868,7 | 0,634 | 1,518 | 1,377 |
8 | 7 964,7 | 0,639 | 1,659 | 1,500 |
13 | 6 048,9 | 0,642 | 1,155 | 1,117 |
1 | 7 813,1 | 0,643 | 1,524 | 1,378 |
6 | 9 224,5 | 0,645 | 1,175 | 1,065 |
11 | 5 847,2 | 0,648 | 0,895 | 0,925 |
10 | 5 446,1 | 0,648 | 0,759 | 0,830 |
4 | 8 101,7 | 0,649 | 1,529 | 1,380 |
20 | 5 192,2 | 0,650 | 0,912 | 1,016 |
3 | 7 266,7 | 0,651 | 1,168 | 1,104 |
18 | 5 328,4 | 0,652 | 0,961 | 1,118 |
16 | 7 151,9 | 0,653 | 1,646 | 1,493 |
9 | 6 211,9 | 0,654 | 0,924 | 0,934 |
2 | 6 642,0 | 0,654 | 1,217 | 1,133 |
12 | 5 857,0 | 0,663 | 1,102 | 1,151 |
17 | 6 133,1 | 0,674 | 1,092 | 1,053 |
19 | 5 016,0 | 0,728 | 1,091 | 1,262 |
Paris | 6 282,6 | 0,655 |
Valeurs du paramètre Rho résultant de l’exclusion d’un arrondissement
Les prix moyens sont obtenus à partir des données individuelles. Les Rho sont obtenus à partir du modèle Sar avec la variable instrumentale PREDLAGLNPRIX. Gris clair : prix supérieurs à 7 500 euros. Gris foncé : prix inférieurs à 6 000 euros.La valeur de référence pour Rho est celle de Paris considéré dans son ensemble, c’est-à-dire sans exclusion d’aucun arrondissement, soit 0,654. Ce tableau indique l’effet du retranchement d’un arrondissement sur l’estimation de ce paramètre. Si le Rho obtenu est plus faible que la référence, l’arrondissement soustrait avait donc un pouvoir de diffusion plus fort que la moyenne (et inversement). Les arrondissements en début de liste sont les plus diffusants, ceux en fin de liste sont les moins diffusants.
63 Quand on considère les diffusions fortes, c’est-à-dire les quartiers qui dirigent les prix, on trouve des arrondissements de la rive gauche, en particulier le 5e avec et des prix élevés. Tandis que l’arrondissement avec le pouvoir de diffusion le plus faible est sur la rive droite ; il s’agit du 19e, avec des prix bas et un paramètre . La majorité des arrondissements se situent dans un intervalle relativement étroit : (il s’agit ici des après exclusion d'un arrondissement, la diffusion de l’arrondissement est plus forte si le obtenu est plus bas).
64 D’un point de vue socioéconomique, on peut se demander comment ce résultat est relié aux caractéristiques hédoniques et personnelles. En d’autres termes, y a-t-il un rapport entre l’autocorrélation spatiale et la structuration des caractéristiques dans un arrondissement ? Un indicateur adapté à cette question a été introduit précédemment dans la section 5. On voit ainsi que les diffusions fortes des 5e, 14e et 15e sont associées à des niveaux bas pour les indicateurs PATTERN4 et PATTERN5, la structure de leurs transactions y est proche de la moyenne urbaine. Les grands arrondissements du 14e et du 15e attirent apparemment des acheteurs de différentes strates sociales et ayant des préférences hétérogènes.
65 Dans le 5e, la variable OUVRIER est plus faible que la moyenne, mais on peut trouver à expliquer son caractère directeur en termes de dynamiques urbaines. Cet arrondissement est celui du quartier latin et il regroupe les universités de la Sorbonne ainsi que de nombreux autres centres culturels et de recherche. Ce qui s’y déroule pourrait donner le ton des conditions de ventes immobilières aux autres parties de Paris. Il faut cependant admettre que cette interprétation n’est pas entièrement satisfaisante car elle ne repose pas sur des arguments statistiques précis. De manière similaire, le 7e arrondissement, prospère et à prix élevés, exerce une diffusion forte, bien que la structure de ses transactions dévie notablement de la moyenne de la ville.
66 A contrario, les arrondissements avec les pouvoirs de diffusion les plus faibles sont les 12e, 17e et 19e. Leur prix sont les plus bas, le minimum étant atteint pour le 19e. Les 12e et 17e ont des structures sociales plutôt mixtes, tandis que la 19e est traditionnellement un quartier plus populaire. L’absence (relative) de pouvoir diffusant du 17e peut s’expliquer par son caractère enclavé du point de vue de la géographie des marchés immobiliers. Il est limitrophe, au nord, de la butte Montmartre, et à l’ouest du 8e arrondissement où les immeubles de bureaux sont très présents. Ces deux marchés ayant des logiques propres très puissantes, le 17e n’aurait que peu d’influence sur ceux-ci. Au sud, la frontière est avec le quartier Trocadéro dans le 16e arrondissement, une zone de prix très élevés. Ici aussi, il est plus aisé de penser que c’est le quartier du Trocadéro qui dirige les prix du 17e, plutôt que l’inverse. On pourrait par contre considérer l’hypothèse que le 17e exercerait une influence significative sur les prix des villes limitrophes de Levallois et de Clichy qui lui sont frontalières à l’ouest.
67 Pour conclure, la segmentation entre les diffusions fortes et faibles semble plutôt coïncider avec le niveau des prix. On trouve cependant deux grands arrondissements, le 14e et le 15e, avec des diffusions fortes, des prix modérés et des structures sociales mixtes. Pour l’année 2007, ce sont les arrondissements avec des prix immobiliers élevés et de bonnes perspectives qui ont le plus contribué à la diffusion globale.
9. Conclusion
68 La croissance française en 2006 et 2007 a été substantielle. Beaucoup d’acheteurs pourraient avoir été guidés par des anticipations positives, en particulier pour les prix immobiliers. Ceux avec des dotations importantes pourraient avoir souhaité placer leur richesse en achetant des appartements à prix élevés, tandis que les acheteurs avec des patrimoines intermédiaires auraient considéré des biens plus modestes. La question centrale traitée dans ce papier consistait par conséquent à déterminer dans quelle mesure la formation des prix était due à une diffusion globale dans un contexte de croissance assez forte, ou bien aux caractéristiques intrinsèques des biens négociés.
69 Le modèle d’économétrie spatiale utilisé pour rendre compte de la formation des prix à Paris a produit un certain nombre de résultats nouveaux et inattendus. Pour construire un modèle Sar viable nous avons retenu une grille et l’emploi de données agrégées lors des estimations. La construction d’une variable instrumentale pour les prix a été un point clé pour séparer les causes de la formation des prix et circonscrire le problème de la réflexion.
70 Il a d’abord été démontré que ni la procédure Ols simple, basée sur des données individuelles, ni les méso-agrégats utilisés directement dans les modèles Sar, ne fournissaient de résultats satisfaisants. Certaines caractéristiques étaient non-significatives et trop volatiles à l’échelle locale, tandis que les causes de la diffusion des prix ne pouvaient pas être clairement identifiées.
71 L’étape décisive a consisté à construire une variable instrumentale pour les prix retardés qui permet, par définition, d’isoler les effets causals. L’utilisation d’un instrument basé sur les seules données de population a fourni probablement le meilleur résultat. Enfin, le modèle a aussi permis d’obtenir un classement des arrondissements et de mesurer leur contribution à la diffusion globale.
72 Du point de vue des perspectives socio-économiques, les résultats permettent des interprétations instructives. Dans l’ensemble, les arrondissements avec les diffusions les plus fortes sont associés aux prix et revenus élevés, tandis que ceux avec des diffusions plus faibles le sont avec des prix et des revenus plus bas. D’après ce classement obtenu avec le paramètre, les zones directrices en prix sont celles au sud de la Seine (rive gauche), alors que les diffusions les plus faibles sont au nord et correspondent plutôt à la rive droite.
73 Au sommet de ce classement, on trouve le 5e avec des prix élevés, et en fin de liste le 19e avec des prix et des revenus bas. Puisque les résultats statistiques suggèrent que la plupart de la diffusion du prix survient à l’échelle de l’arrondissement, on peut affirmer que pour l’année 2007 la formation des prix a été dominée par les phénomènes génériques, plutôt que par les phénomènes locaux et ponctuels.
74 Plusieurs autres enseignements méritent aussi d’être relevés. En haut de l’échelle de diffusion on trouve les grands arrondissements du 14e et du 15e, avec des prix intermédiaires et des strates sociales mixtes. Et à partir des estimations obtenues pour les caractéristiques personnelles, on peut également constater que les ouvriers, employés et petits commerçants s’associent aux prix faibles. Il en résulte qu’un panachage adéquat de biens immobiliers, destinés à une variété de strates sociales, est un facteur essentiel à la stabilisation des prix pour l’ensemble de la communauté.
75 Enfin, il convient de mentionner que ces résultats valent pour l’année 2007, dans un contexte économique favorable, et qu’ils mériteraient d’être étendus à d’autres années, maintenant que le problème méthodologique de la séparation des effets a été traité. De nouvelles recherches sont donc requises pour obtenir une vue plus détaillée et pour préciser le degré de pertinence du chemin retenu dans cet article.
Le modèle Sar
76 Le modèle Sar utilise des données observées à une même date, sur un nombre fixé de zones. La notion centrale est la diffusion ; elle vise à caractériser la manière dont les prix locaux influencent leur voisinage (cf. LeSage et Pace, 2009, par exemple). Dans le cadre de cet article les zones correspondent aux cellules de la grille. Le modèle décrit un processus de diffusion, où le prix d’une cellule donnée élève ou abaisse les prix sur l’ensemble de la ville.
77 La diffusion prend la forme d’une autocorrélation spatiale ρ. Ce scalaire ρ dépend d’une matrice symétrique W qui caractérise le type de voisinage. Le choix retenu est celui d’une matrice enregistrant des 0 et des 1 (cf. Annexes, Tableau 7). Le modèle autorégressif Sar sur N cellules s’écrit :
78 où ρ est l’autocorrélation spatiale, y les prix endogènes, X les variables explicatives et wij = 0/1 pour les les voisinages. D’une manière détaillée, le modèle Sar s’écrit :
79 soit,
80 Le modèle Sdm de Durbin le plus général est un modèle de type Sar où toutes les variables exogènes sont retardées :
81 D’une manière intermédiaire, on peut ne retenir que certaines variables exogènes spécifiques pour le retard. Les variables endogènes peuvent être retardées également, à l’exemple du Tableau 4. La définition d’un retard pour une variable z est
82 Les modèles retardés de la section 7 s’écrivent alors simplement :
83 L’instrument associé est k , où k correspond à la ke coordonnée de l’estimateur.
84 Les estimations des modèles spatiaux Sar sont réalisées par maximum de vraisemblance, (cf. LeSage et Pace, 2009, chapitre 3), avec le logiciel R. Dans le cas des estimations Ols des logarithmes de prix avec instrument du Tableau 5, une estimation bootstrap a aussi été effectuée, sans constater de changements majeurs avec l’estimation par maximum de vraisemblance.
85 Pour l’échantillon de données, N vaut 360 = 18*20, et correspond à une grille avec 18 cellules verticales et 20 cellules horizontales. Les cellules sans données ont été retirées lors de l’estimation. Cela aboutit à 264 observations, et donc dim(W) = 264² = 129600.
86 Des tests ont été réalisés en affinant la grille d’un facteur 2, horizontalement et verticalement, amenant à dim(W) = 4264² = 518400. Les estimations sont disponibles sur demande. Les résultats sont proches de ceux obtenus pour la grille à 264 cellules. Affiner la grille ne permettant pas de traiter du problème de la « réflexion », nous n’avons pas poursuivi dans cette voie. Le problème du Maup (Modifiable areal unit problem, biais causé par l’agrégation en cellules, cf. Briant et al., 2010) ne semble pas se poser ici.
87 La méthode Sar n’a pas été appliquée aux données individuelles directement. Une telle implémentation devrait prendre en compte la question de la granularité renforcée des arrondissements centraux. Il s’agit là d’un problème ouvert, qui serait à considérer sur plusieurs années.
88 Enfin, il convient d’indiquer que pour les cellules se trouvant sur le bord de Paris, elles ne peuvent pas être influencées, par construction et par définition de l’échantillon, par les villes limitrophes de la petite couronne. Le périphérique parisien est une frontière urbaine importante, qui peut laisser penser que cette influence est modérée. De plus, le sens de cette éventuelle diffusion serait plus vraisemblablement de Paris vers l’extérieur, que l’inverse. Cette approximation pour les cellules sur les bords semble donc acceptable.
Structure de voisinage et matrice de poids W
Les voisins de la cellule centrale sont indiqués en gris et repérés par des 1 dans la matrice W.Les cellules du réseau sont rectangulaires.
Le réseau est plus étendu horizontalement que verticalement : 10,85 km*8,4 km, soit 1,29 : 1
La dimension d’une cellule est 543 m*467 m, soit 1,16 : 1. (10850/20 = 543 et 8400/18 = 467)
Statistiques de Moran des variables
VARIABLE | MORAN I | PTEST |
LNPRIX | 0,8281 | 0 |
LNREVARRON | 0,8885 | 0 |
QRECENT | 0,1596 | 0,000091 |
QSURF1 | 0,3737 | 0 |
QSURF3 | 0,5714 | 0 |
DUPLEX | 0,1240 | 0,000913 |
OUVRIER | 0,2349 | 0,000000 |
WLNDENS | 0,8184 | 0 |
WPOPGROW | 0,8292 | 0 |
PREDLAGLNPRIX | 0,9366 | 0 |
PREDTOTLNPRIX | 0,8946 | 0 |
Statistiques de Moran des variables
Logarithme des prix | |||||||||
Moyenne | 8,761 | Les variables de densité et de croissance de population sont pondérées par les effectifs des cellules. | |||||||
Ecart-type | 0,206 | ||||||||
Variable | Moyenne | SDM L8 | Sar L4 | Sar L2 | Sar L0 | ||||
Constant | 2,870 | *** | 2,566 | *** | 2,679 | *** | 2,129 | *** | |
LNREVARRON | 3,213 | 0,061 | ° | 0,086 | *** | 0,112 | *** | 0,122 | *** |
LAGLNREV | 3,213 | 0,033 | |||||||
QRECENT | 0,079 | 0,230 | *** | 0,233 | *** | 0,223 | *** | 0,219 | *** |
LAGQRECENT | 0,076 | -0,174 | ** | -0,184 | ** | ||||
QSURF1 | 0,419 | 0,137 | *** | 0,128 | *** | 0,164 | *** | 0,149 | *** |
LAGSURF1 | 0,421 | -0,091 | ° | ||||||
QSURF3 | 0,120 | 0,226 | *** | 0,223 | *** | 0,212 | *** | 0,223 | *** |
LAGSURF3 | 0,121 | -0,198 | ** | -0,121 | ° | ||||
QDUPLEX | 0,034 | 0,284 | ** | 0,297 | ** | 0,352 | ** | 0,333 | ** |
LAGDUPLEX | 0,034 | 0,126 | |||||||
QOUVRIER | 0,085 | -0,403 | *** | -0,379 | *** | -0,370 | *** | -0,336 | *** |
LAGOUVRIER | 0,086 | -0,204 | |||||||
WLNDENS | 5,488 | 0,085 | ° | 0,098 | * | 0,098 | * | -0,001 | |
LAGWLNDENS | 5,487 | -0,145 | * | -0,162 | ** | -0,144 | ** | ||
WPOPGROW | 0,719 | -0,033 | *** | -0,036 | *** | -0,034 | *** | -0,017 | *** |
LAGWPGROW | 0,722 | 0,023 | * | 0,028 | * | 0,021 | ° | ||
Rho | 0,677 | *** | 0,711 | *** | 0,673 | *** | 0,704 | *** | |
pseudo-R2 | 0,888 | 0,885 | 0,878 | 0,874 | |||||
relstd(résidus) | 0,0073 | 0,0073 | 0,0076 | 0,0077 | |||||
logLikelihood / df | 332,2 | 19 | 328,9 | 15 | 320,9 | 13 | 316,3 | 11 | |
Aic | -626,5 | -627,7 | -615,8 | -610,7 | |||||
Probabilité d’autocorrélation résiduelle | 0,063 | 0,077 | 0,571 | 0,180 |
Probabilité d’autocorrélation résiduelle : probabilité de l’hypothèse nulle selon le LM-test.
LNREVAR-
RON | QRECENT | QSURF1 | QSURF3 | QDUPLEX | QOUVRIER | WLNDENS |
WPOP-
GROW |
PREDLAG-
LNP |
PREDLAG-
TOT | |
LNREVAR$
RON | 1 | |||||||||
QRECENT | -0,207** | 1 | ||||||||
QSURF1 | -0,408*** | -0,240*** | 1 | |||||||
QSURF3 | 0,648*** | -0,008 |
-0,570** * | 1 | ||||||
QDUPLEX | 0,292*** | -0,158** | -0,216*** | 0,396*** | 1 | |||||
QOUVRIER | -0,463*** | -0,072 | 0,312*** | -0,303*** | -0,277*** | 1 | ||||
WLNDENS | -0,696*** | 0,097 | 0,301*** | -0,526*** | -0,231*** | 0,343*** | 1 | |||
WPOP-
GROW | 0,224*** | -0,117° | -0,174*** | 0,513*** | 0,119° | -0,263*** | -0,237*** | 1 | ||
PREDLAG-
LNP | 0,915*** | -0,211** | -0,344*** | 0,585*** | 0,296*** | -0, 445*** | -0,774*** | 0,363*** | 1 | |
PREDLAG-
TOT | 0,879*** | -0,204** | -0,321*** | 0,586*** | 0,285*** | -0,460*** | -0,741*** | 0,347*** | 0,964 *** | 1 |
Bibliographie
Références bibliographiques
- Anselin L, Florax R-J, Rey S-J (2004)Advances in spatial econometrics. Methodology, tools and applications. Springer, Berlin.
- Baltagi B-H, Bresson G (2011) Maximum likelihood estimation and Lagrange multiplier tests for panel seemingly unrelated regressions with spatial lag and spatial errors: an application to hedonic housing prices in Paris. Journal of Urban Economics 69: 24-42.
-
Barthélémy F, Des Rosiers F, Baroni M (2013) Market Heterogeneity and the Determinants of Paris Apartment Prices: a Quantile Regression Approach. Eres conference paper
[en ligne] http://library.eres.org/eres2013/paperupload/79.pdf - Bhattacharjee A, Castro E, Marques J (2012) Spatial interactions in hedonic pricing models : the urban market of Aveiro, Portugal. Spatial Economic Analysis 7(1): 133-167.
- Bhattacharjee A, Holly S (2013) Interaction in social networks and committees. Spatial Economic Analysis 8(1): 23-53.
- Bhattacharjee A, Castro E, Maiti T, Marques J (2016) Endogenous spatial regression and delineation of submarkets: a new framework with application to housing markets. Journal of Applied Econometrics 31: 32-57.
- Briant A, Combes P-P, Lafourcade M (2010) Dots to boxes: do the size and shape of spatial units jeopardize economic geography estimations? Journal of Urban Economics 67(3): 287-302.
- Cai T, Hall P (2006) Prediction in functional linear regression. Annals of Statistics 34(5): 2159-2179.
- Cameron A-C, Trivedi C (2005) Microeconometrics. Methods and Applications. Cambridge University Press, New York.
- Cho S, Kim J, Roberts R, Kim S-G (2012) Neighborhood spillover effects between rezoning and housing price. The Annals of Regional Science 48(1): 301-319.
- Ding C, Simons R, Baku E (2000) The effect of residential investment on nearby property values : Evidence from Cleveland, Ohio. Journal of Real Estate Research 19(1): 23-48.
- Fotheringham A, Brunsdon C, Charlton M (1998) Geographically weighted regression: a natural evolution of the expansion method for spatial analysis. Environment and Planning A, 30: 1905-1927.
- Gibbons S-T, Overman H-G (2012) Mostly Pointless Spatial Econometrics? Journal of Regional Science 52(2): 172-191.
- Hall P, Horowitz J-L (2007) Methodology and convergence rates for functional linear regression. Annals of Statistics 35(5): 70-91.
- Henry M, Schmitt B, Piguet V (2001) Spatial econometric models for simultaneous systems: application to rural community growth in France. International Regional Science Review 24(2): 171-193.
- Lee L-F (2004) Asymptotic distributions of quasi-maximum likelihood estimators for spatial autoregressive models. Econometrica 72(6): 1899-1925.
- Lee L-F (2007) Identification and estimation of econometric models with group interactions, contextual factors and fixed effects. Journal of Econometrics 140(2): 333-374.
- LeSage J, Pace K (2009)Introduction to Spatial Econometrics. Crc Press, Chapman & Hall.
- Manski C (1993) Identification of endogenous social effects: the reflection problem. Review of Economic Studies 60(3):531-542.
- Manski C (2000) Economic analysis of social interactions. Journal of Economic Perspectives 14(3):115-136.
- McMillen D (2010) Issues in Spatial Data Analysis. Journal of Regional Science 50(1): 119-141.
- Nappi-Choulet I, Maury T-P (2011) A Spatial and Temporal Autoregressive Local Estimation for the Paris Housing Market. Journal of Regional Science 51(4): 732-750.
- Pinske J, Slade M (2010) The Future of Spatial Econometrics. Journal of Regional Science 50(1): 103-117.
- Roberts D (2000) The spatial diffusion of secondary impacts: rural-urban spillovers in Grampian, Scotland. Land Economics 76(3): 395-412.
- Simons R-A, Quercia R-G, Maric I (1998) The value impact of new residential construction and neighborhood disinvestment on residential sales price. Journal of Real Estate Research 15(2): 147-162.
Mots-clés éditeurs : diffusion de prix, modèle Sar, effets locaux et globaux, arrondissements directeurs
Mise en ligne 02/11/2017
https://doi.org/10.3917/reru.174.0673