Geographically Weighted Regression As a Predictive Tool for Station-Level Ridership
Total Page:16
File Type:pdf, Size:1020Kb
DEGREE PROJECT IN THE FIELD OF TECHNOLOGY CIVIL ENGINEERING AND URBAN MANAGEMENT AND THE MAIN FIELD OF STUDY THE BUILT ENVIRONMENT, SECOND CYCLE, 30 CREDITS STOCKHOLM, SWEDEN 2019 Geographically Weighted Regression as a Predictive Tool for Station-Level Ridership The Case of Stockholm KARIM OUNSI KTH ROYAL INSTITUTE OF TECHNOLOGY SCHOOL OF ARCHITECTURE AND THE BUILT ENVIRONMENT Abstract English/ Engelska/ Anglais This thesis studies a new regression method, Geographically Weighted Regression (GWR) to predict ridership at the station level for future stations. The case study of Stockholm’s blue line is used as new stations will be built by 2030. This paper is written in English. Historically, linear regression methods, independent of the geographical location of the observations, was and is still used as the Ordinary Least Square regression method. With the rise of GIS-softwares these last decades, geographically dependent regression can be used and previous preliminary studies have shown a dependency between ridership and location of the station within the network. GWR equations for new stations are determined and used to predict their respective ridership. GIS-data was collected using Geodata and Traffikverket (Traffic Authority) and ridership as well as socio-economic related material for the base year of 2016 was used in order to determine, first, significant variables from a group of candidate ones (Workers, number of bus lines and type of change were chosen) and, second the OLS and GWR equations. Significances of both models were compared and the OLS equation was used in order to determine the hypothetical ridership of the new stations if they were present in 2016. GWR equations were then determined using these calculated ridership of these new stations. Having all GWR equations (each station having its own equation), ridership was thus predicted for the new stations for 2030 using assumptions and planned, programmed development around the stations (population, apartment to be built…) and compared with the official predictions. The results show that the GWR method, generally, overpredicts ridership when compared to the official predictions. Many reasons can explain this overprediction like the assumptions made with regards to the number of buses as well as the method followed to calculate the number of workers around each station. Three main conclusions were drawn for this case study. One main conclusion, specific for this study and two other, more general, conclusions were deduced from this study. First, GWR is a good predicting tool for future stations that are close to most currently available stations. Second, GWR is a good predicting method for stations where limited changes in the future environment will occur. 1 Sammanfattning Swedish/ Svenska/ Suédois Denna avhandling studerar en ny regressionsmetod, Geografically Weighted Regression (GWR) för att förutsäga antal resenärer på stationsnivå för framtida stationer. Fallstudien av Stockholms blå linje används eftersom nya stationer kommer att byggas år 2030. Denna rapport skrivs på engelska. Historiskt används linjära regressionsmetoder oberoende av observationens geografiska placering som den ordinarie Least Square-regressionsmetoden. Med ökningen av GIS- programvaror de senaste decennierna kan geografiskt beroende regression användas och tidigare preliminära studier har visat ett beroende mellan antal resenärer och plats för stationen i nätverket. GWR-ekvationer för nya stationer bestäms och används för att förutsäga deras respektive antal resenärer. GIS-data samlades in med hjälp av Geodata och Traffikverket och antal resenärer samt socioekonomiskt relaterat material för basåret 2016 användes för att först fastställa betydande variabler från en grupp kandidater (Arbetare, antal busslinjer och typ av förändring valdes) och för det andra OLS- och GWR-ekvationerna. Betydelsen av båda modellerna jämfördes och OLS- ekvationen användes för att bestämma det hypotetiska antal resenärer för de nya stationerna om de var närvarande 2016. GWR-ekvationerna bestämdes sedan med hjälp av dessa beräknade antal resenärer för dessa nya stationer. Med alla GWR-ekvationer (varje station har sin egen ekvation) förutsades således antal resenärer för de nya stationerna för 2030 med antaganden och planerad, programmerad utveckling runt stationerna (befolkning, lägenhet som ska byggas ...) och jämförs med de officiella förutsägelserna. Resultaten visar att GWR-metoden generellt sett förutsäger antalet resenärer jämfört med de officiella antalet resenärer. Många orsaker kan förklara denna överförutsägelse som antaganden om antalet bussar och metoden som följdes för att beräkna antalet arbetare runt varje station. Tre huvudsakliga slutsatser drogs för denna fallstudie. En huvudsaklig slutsats, specifik för denna studie och två andra, mer generella, slutsatser härleddes från denna studie. För det första är GWR ett bra förutsägningsverktyg för framtida stationer som ligger nära de flesta tillgängliga stationer. För det andra är GWR en bra förutsägningsmetod för stationer där begränsade förändringar i den framtida miljön kommer att inträffa. 2 Résumé French/ Franska/ Français Cette thèse étudie une nouvelle méthode de régression, la régression géographiquement pondérée (GWR), pour prédire le nombre de voyageurs au niveau des stations pour de futures stations. L’étude de cas de la ligne bleue de Stockholm est prise vu que de nouvelles stations seront construites d’ici 2030. Cette thèse est rédigée en anglais. Historiquement, les méthodes de régression linéaire, indépendantes de la localisation géographique de des observations, étaient et sont toujours utilisées comme méthode de régression des moindres carrés ordinaires (OLS). Avec le développement des logiciels SIG au cours des dernières décennies, l’utilisation de régression géographiquement dépendante devient plus accessible et des études préliminaires antérieures ont montré une dépendance entre le nombre de voyageurs et l'emplacement de la station dans le réseau. Les équations GWR pour les nouvelles stations sont déterminées et utilisées pour prédire leurs nombres de voyageurs respectives. Les données SIG ont été collectées à l’aide de Geodata et de Traffikverket (Autorité des transports). Le nombre de passagers ainsi que les données socio- économiques pour l’année de référence de 2016 ont été utilisés afin de déterminer, en premier lieu, les variables significatives d’un groupe de candidats (travailleurs, nombre de lignes de bus type de changement ont été choisis) et, deuxièmement, les équations de OLS et de GWR. Les valeurs significatives des deux modèles ont été comparées et l'équation OLS a été utilisée afin de déterminer le nombre de voyageurs hypothétique des nouvelles stations si elles étaient présentes en 2016. Les équations GWR ont ensuite été déterminées à l'aide de ce nombre de voyageurs calculé de ces nouvelles stations. Disposant de toutes les équations GWR (chaque station ayant sa propre équation), le nombre de voyageurs des nouvelles stations pour 2030 a donc été prédite à l'aide d'hypothèses et de développements planifiés et programmés autour des stations (population, appartement à construire…) et comparés aux prévisions officielles. Les résultats montrent que la méthode GWR surestime d’une façon générale le nombre de voyageurs par rapport aux prévisions officielles. Plusieurs raisons peuvent expliquer cette surestimation, telles que les hypothèses émises concernant le nombre d'autobus et la méthode suivie pour calculer le nombre de travailleurs autour de chaque station. Trois principales conclusions ont été tirées pour cette étude de cas. Une conclusion principale, spécifique à cette étude et deux autres conclusions, plus générales, ont été déduites de cette étude. Premièrement, le GWR est un bon outil de prévision pour les futures stations proches de la plupart des stations actuellement présentes. Deuxièmement, le GWR est une bonne méthode de prévision pour les stations où des changements limités dans l’environnement futur auront lieu. 3 Stockholm is growing – and so is public transport Stockholm County is growing rapidly, in recent years by about 40,000 inhabitants every year. By 2030 the (county’s) population is expected to have increased to about 2.6 million (from just under 2.1 million in 2010). This will increase pressure on public transport services. Roads and railways are already congested, particularly in the central parts of the city and during peak traffic. In-commuting from other counties will also increase and accessibility to public transport will need to be adapted to Introduction the changing needs. PUBLIC TRANSPORT should be perceived as the most attractive form of travel for every- one, including the elderly and travellers with disabilities. It is therefore crucial to Background the Stockholm region of the future that public transport develop at the same pace, at least, as the population increases and that the entire transport system be planned so as to facilitate public transport’s long-term expansion. According to the World Bank in 2018, more and more people are moving to cities leaving THE COUNTY COUNCIL invests billions in public transport every year. Over the coming behind rural areas. Inyears, fact, the countysince council 2007, will more be investing people more thanlive ever in to these meet the cities needs ofthan a in rural areas for the first time in history. growingEven population.if the rate The of biggest urbanization investments will is be decreasing, made in upgrading it thehas infra constantly-