Synthesis Via Partial Exploration and Concise Representations
Total Page:16
File Type:pdf, Size:1020Kb
Fakultat¨ fur¨ Informatik Technische Universitat¨ Munchen¨ A Learning Twist on Controllers: Synthesis via Partial Exploration and Concise Representations Pranav Ashok Vollst¨andigerAbdruck der von der Fakult¨atf¨urInformatik der Technischen Universit¨at M¨unchen zur Erlangung des akademischen Grades eines Doktor der Naturwissenschaften (Dr. rer. nat.) genehmigten Dissertation. Vorsitzender: Prof. Dr. Helmut Seidl Pr¨ufendeder Dissertation: 1. Prof. Dr. rer. nat. Jan Kˇret´ınsk´y 2. Prof. Kim Guldstrand Larsen R, Aalborg University, Denmark 3. Prof. Dr.-Ing. Matthias Althoff Die Dissertation wurde am 28.09.2020 bei der Technischen Universit¨atM¨unchen eingereicht und durch die Fakult¨atf¨urInformatik am 10.02.2021 angenommen. Abstract Quantitative model checking and controller synthesis deal with the task of synthesiz- ing dependable controllers satisfying certain specifications for probabilistic and hybrid systems. However, commonly used techniques are susceptible to the curse of dimension- ality. That is, when the number of state variables increase, the size of the state space grows exponentially. Further, even if this problem is handled and controllers are syn- thesized successfully, the resulting controllers are typically large and incomprehensible. This thesis investigates techniques to mitigate these two problems. State-space explosion. We present techniques based on partial exploration for -optimal controller synthesis of discrete- and continuous-time Markov decision processes. Our ap- proach makes use of simulations to identify a small part of the state space, sufficient to synthesize a controller with the desired guarantees. For Markov decision processes with the reachability objective, we combine the guaranteed simulation-based technique of bounded real-time dynamic programming, and the extremely scalable game solving tech- nique of Monte Carlo tree search. The resulting algorithm benefits from the best of both worlds. For continuous-time Markov decision processes with the time-bounded reachab- ility objective (TBR), we use simulations to obtain under- and over-approximating sub- models. On them, we run existing TBR algorithms to obtain lower and upper bounds on the optimal TBR value. The sub-model is expanded with the help of more simula- tions until corresponding bounds sufficiently converge, allowing to extract an -optimal controller. Large and incomprehensible controllers. We propose the use of decision trees to rep- resent controllers synthesized from probabilistic and hybrid systems. Decision tree learn- ing can exploit internal structures of these controllers to group sets of states with the same control action. We extend standard decision tree learning algorithms with the ability to represent controllers with correctness guarantees without losing these guaran- tees. Based on this, we develop two tools. First, we extend the state-of-the-art control synthesis tool Uppaal Stratego to produce safe, near-optimal, and small controllers for hybrid Markov decision processes. We introduce a novel safe pruning technique that allows one to explore the size-optimality trade-off without losing safety guarantees of the original controller. Next, we introduce the dtControl toolkit, which can convert any non-randomized memoryless controller available in the form of a lookup table into a decision tree. We also present a novel determinization strategy that can locally determ- inize parts of a permissive controller in order to obtain significant reductions in the size of the resulting decision tree. We demonstrate our results on controllers obtained from the hybrid systems tool SCOTS as well as Uppaal Stratego. iii Zusammenfassung Quantitative Modell¨uberpr¨ufungund Reglersynthese besch¨aftigensich mit der Aufgabe, zuverl¨assigeRegler zu synthetisieren, die bestimmte Spezifikationen f¨urprobabilistische und hybride Systeme erf¨ullen. H¨aufigverwendete Techniken leiden jedoch unter dem sogenannten Fluch der Dimensionalit¨at.Das heißt die Gr¨oßedes Zustandsraums w¨achst exponentiell mit der Anzahl der Zustandsvariablen. Außerdem, selbst wenn, trotz dieses Problems, Regler erfolgreich synthetisiert werden, sind die resultierenden Regler normalerweise groß und unverst¨andlich. In dieser Arbeit werden Techniken untersucht, die diese beiden Probleme mildern. Zustandsraumexplosion. Wir stellen Techniken vor, die auf einer partiellen Erkundung f¨ureine -optimale Reglersynthese von zeitdiskreten und zeitkontinuierlichen Markov- Entscheidungsprozessen basieren. Unser Ansatz nutzt Simulationen, um einen kleinen Teil des Zustandsraums zu identifizieren, der ausreicht, um einen Regler mit den ge- w¨unschten Garantien zu synthetisieren. F¨urMarkov-Entscheidungsprozesse mit dem Ziel der Erreichbarkeit kombinieren wir die garantierte simulationsbasierte Technik der bes- chr¨anktendynamischen Echtzeitprogrammierung und die extrem gut skalierbare Spiele- L¨osungstechnik der Monte-Carlo-Baumsuche. Der resultierende Algorithmus profitiert vom Besten aus beiden Welten. F¨urzeitkontinuierliche Markov-Entscheidungsprozesse mit dem zeitgebundenen Erreichbarkeitsziel (TBR, aus dem Englischen "time-bounded reachability") verwenden wir Simulationen, um unter- und ¨uberapproximierende Teilm- odelle zu erhalten. Auf diesen lassen wir existierende TBR-Algorithmen laufen, um un- tere und obere Grenzen f¨urden optimalen TBR-Wert zu erhalten. Das Teilmodell wird mit Hilfe weiterer Simulationen erweitert, bis die entsprechenden Grenzen ausreichend konvergieren, so dass ein -optimaler Regler extrahiert werden kann. Kleine und erkl¨arbare Controller. Wir schlagen vor, Entscheidungsb¨aumezu nutzen, um Regler darzustellen, die aus probabilistischen und hybriden Systemen synthetisiert wurden. Das Lernen von Entscheidungsb¨aumenkann interne Strukturen dieser Reg- ler ausnutzen, um Gruppen von Zust¨andenmit derselben Kontrollaktion zu vereinen. Wir erweitern die Standardalgorithmen zum Lernen von Entscheidungsb¨aumenum die F¨ahigkeit, Regler mit Korrekheitsgarantien darzustellen, ohne dabei diese Garantien zu verlieren. Auf dieser Grundlage entwickeln wir zwei Programme. Erstens erweitern wir das dem Stand der Technik entsprechende Regelungssynthese-Programm Uppaal Stratego um sichere, nahezu optimale und kleine Regler f¨urhybride Markov-Entscheid- ungsprozesse bereitzustellen. Wir f¨uhreneine neue Technik namens sicheres Stutzen ein, die es erlaubt, das Spannungsfeld zwischen Gr¨oßeund Optimalit¨atzu erforschen, ohne die Korrektheitsgarantie des urspr¨unglichen Reglers zu verlieren. Als n¨achstes stellen wir v Zusammenfassung das Programm dtControl vor, das jeden nicht randomisierten, ged¨achtnislosen Control- ler, der in Form einer Nachschlagetabelle verf¨ugbarist, in einen Entscheidungsbaum umwandeln kann. Außerdem stellen wir eine neuartige Bestimmungsstrategie vor, mit der Teile eines nicht deterministischen Reglers lokal bestimmt werden k¨onnen,um die Gr¨oßedes resultierenden Entscheidungsbaums deutlich zu reduzieren. Wir demonstri- eren unsere Ergebnisse an Reglern, die mit dem Programm f¨urhybride Systeme SCOTS sowie Uppaal Stratego gewonnen wurden. vi Acknowledgements First and foremost, I would like to thank my doctoral advisor, Jan, for all the support and guidance he has provided me. I am incredibly grateful for the belief and trust he has placed in me that has encouraged me to take up roles of responsibility. It has always been a pleasure to discuss with him, both work and life. I would like to express my sincere gratitude to Prof. Kim G. Larsen, for hosting me at Aalborg University for two wonderful research stays. I consider his infectious enthusiasm and excitement entirely responsible for driving my work on decision trees. I always look forward to meeting and brainstorming with Kim. Further, I would like to thank Prof. Tom´asBr´azdilfor inviting me to Brno for my first research stay abroad. It was delightful working with you and Ondrej, not to forget the great lunches! I am thankful to all my co-authors, Adrien Le Co¨ent, Christoph H. Lampert, Hol- ger Hermanns, Jakob Haahr Taankvist, Krishnendu Chatterjee, Majid Zamani, Mathias Jackermeier, Przemyslaw Daca, Pushpak Jagtap, Stefanie Mohr, Tobias Winkler, Vahid Hashemi, Viktor Toman, and Yuliya Butkova for the great discussions and fruitful col- laborations. My doctoral studies and my stay in Germany wouldn't have been possible without the generous scholarship provided by the IGSSE Project \10.06 PARSEC" and employment funded by DFG Project \Statistical Unbounded Verification”. I would like to thank the whole IGSSE team, especially Marco Barden and Jo-Anna K¨uster,who have been amazingly supportive during the far too many times I approached them. I will never forget the immense support provided by Agnieszka Slota of TUM Graduate School during the deportation scare I had. I would like to thank Javier Esparza, our chair, whom I look up to for his patience and ability to calmly deal with challenging situations. Further, I would like to thank all my I-7 colleagues for the fun Mensa lunches and discussions. I cannot sufficiently express my words of gratitude towards Maxi, colleague and friend, for being such a great work partner and going out of his way to help me every time I got myself into trouble. I really enjoyed collaborating with him, both professionally and personally. I am thankful to Bala, Christoph, Kush, Maxi, Shyamlal, and Tobi for proofreading various parts of this thesis and for their valuable feedback. Special thanks to my sister Cookies for pointing out all those bugs in my use of English, and not to