Predicting the ROI for Rental Properties | Priscilla Toscano

FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS Curso 2018/2019 Trabajo de Fin de Máster TITULO: Rentalbility - Predicting the profitability of rental of properties in Madrid, a kick-off for a tool to help small investors. Alumna: Priscilla Toscano Pinel Tutor: Aida Calviño Martínez Septiembre de 2019 Table of Contents 1. INTRODUCTION ...................................................................................... 1 1.1. Project Justification ........................................................................... 4 1.2. Project Goals .................................................................................... 4 2. METHODOLOGY ....................................................................................... 4 2.1. ROI Calculation ................................................................................. 5 2.2. Data Mining Guideline ........................................................................ 6 2.3. Data Mining Techniques and Methodology ............................................ 7 2.3.1. Machine Learning Algorithms ........................................................ 7 2.3.1. Data Mining evaluation and optimization techniques.......................... 10 3. IDEALISTA DATA ANALYSIS ..................................................................... 11 3.1. Data Source .................................................................................... 11 3.1.1. Prework .................................................................................... 13 3.2. Data Exploration in SAS Enterprise Miner ............................................ 13 3.2.1. Interval Variables Statistical Analysis ............................................ 14 3.2.2. Class Variables Statistical Analysis ............................................... 15 3.2.3. Variables Importance and Correlation ........................................... 16 3.3.4. Variables Selection ....................................................................... 18 3.3. Modeling in R ................................................................................... 21 3.3.1. Neural Network .......................................................................... 21 3.3.2. Random Forest and Bagging ........................................................ 22 3.3.3. Gradient Boosting ...................................................................... 24 3.3.4. Extreme Gradient Boosting .......................................................... 26 3.3.5. Support Vector Machine .............................................................. 28 3.3.6. Models Assessment .................................................................... 29 3.3.7. Ensemble .................................................................................. 30 4. AIRBNB DATA ANALYSIS ......................................................................... 31 4.1. Data Source .................................................................................... 31 4.1.1. Prework .................................................................................... 31 4.2. Data Exploration in SAS Enterprise Miner ............................................ 33 4.2.1. Interval Variables Statistical Analysis ............................................ 33 4.2.2. Class Variables Statistical Analysis ............................................... 35 4.2.3. Variables Importance and Correlation ........................................... 36 4.2.4. Variables Selection ..................................................................... 37 4.3. Modeling in R ................................................................................... 39 ii 4.3.1. Neural Network .......................................................................... 39 4.3.2. Random Forest and Bagging ........................................................ 40 4.3.3. Gradient Boosting ...................................................................... 42 4.3.4. Extreme Gradient Boosting .......................................................... 44 4.3.5. Support Vector Machine .............................................................. 46 4.3.6. Models Assessment .................................................................... 47 4.3.7. Ensemble .................................................................................. 48 5. MULTICHANNEL RENT PREDICTION & ROI CALCULATION ............................ 49 6. OCCUPANCY RATE STUDY ........................................................................ 51 6.1. Neural Networks ........................................................................... 51 6.2. Random Forest and Bagging ........................................................... 55 6.3. Gradient Boosting .......................................................................... 56 6.4. K-Nearest Neighbor ....................................................................... 58 6.5. Models Assessment ....................................................................... 59 7. DATA VISUALIZATION AND ANALYTICS ..................................................... 60 8. CONCLUSION ......................................................................................... 62 9. BIBLIOGRAPHY ...................................................................................... 63 10. APPENDIX ............................................................................................. 66 Appendix A: Idealista Variables Description ................................................... 66 Appendix B: Access to Codes Repository ....................................................... 67 Appendix C: Idealista Neighborhood and Group levels .................................... 68 Appendix D: Idealista Variables Selection & Transformations Results ................ 69 Appendix E: Airbnb Variables Description ...................................................... 71 Appendix F: Airbnb Replacement Values for Class Variable .............................. 73 Appendix G: Airbnb Neighborhood and Group levels ....................................... 74 Appendix H: Airbnb Variables Selection & Transformations Results ................... 75 iii Table of Figures Figure 1: Evolution of the rentability of housing in Spain .................................... 1 Figure 2: Evolution of housing prices in Madrid (Purchase vs. Rent) ..................... 1 Figure 3: Geographic concentration of Airbnb accommodations in Madrid ............. 2 Figure 4: Evolution of Tree-Based Algorithms .................................................... 9 Figure 5: Idealista sample data after modifications ........................................... 13 Figure 6: Idealista Variables Role and Levels .................................................... 14 Figure 7: Idealista Interval Variable Summary Statistics before changes ............. 14 Figure 8: Idealista Interval Variable Summary Statistics after changes ................ 15 Figure 9: Idealista Class Variable Summary Statistics before changes ................ 15 Figure 10: Idealista Replacement Values for Class Variable ................................ 16 Figure 11: Idealista Class Variable Summary Statistics after changes .................. 16 Figure 12: Idealista Variables Worth ............................................................... 17 Figure 13: Idealista Variables Correlation ........................................................ 17 Figure 14: Idealista Miner Models ................................................................... 19 Figure 15: Idealista Model Comparison Results ................................................. 19 Figure 16: Idealista Box-Plot for Repeated Training-Test ................................... 20 Figure 17: Idealista Variable Selection Analysis ................................................ 20 Figure 18: Idealista NNet results .................................................................... 21 Figure 19: Idealista avNNet results ................................................................. 22 Figure 20: Idealista RF results ........................................................................ 23 Figure 21: Idealista RF1 results ...................................................................... 23 Figure 22: Idealista RF1 Early Stopping Study .................................................. 23 Figure 23: Idealista RF2 results ...................................................................... 24 Figure 24: Idealista RF2 Variable Importance ................................................... 24 Figure 25: Idealista GBM results ..................................................................... 25 Figure 26: Idealista GBMr results .................................................................... 25 Figure 27: Idealista GBMr Early Stopping ......................................................... 26 Figure 28: Idealista GBMr variable importance ................................................. 26 Figure 29: Idealista XGBM Results .................................................................. 27 Figure 30: Idealista XGBMg Results ................................................................ 27 Figure 31: Idealista XGBM variable importance ................................................ 28 Figure 32: Idealista SVML results.................................................................... 28 Figure 33: Idealista SVMR results ................................................................... 29 Figure 34: Idealista Model Assesment

Load more