A Comparison Between Packrat Parsing and Conventional Shift-Reduce Parsing on Real-World Grammars and Inputs

UPTEC IT 14 016 Examensarbete 30 hp Oktober 2014 A Comparison Between Packrat Parsing and Conventional Shift-Reduce Parsing on Real-World Grammars and Inputs Daniel Flodin Abstract A Comparison Between Packrat Parsing and Conventional Shift-Reduce Parsing on Real-World Grammars and Inputs Daniel Flodin Teknisk- naturvetenskaplig fakultet UTH-enheten Packrat parsing is a top-down, recursive descent parsing technique that uses backtracking and has a guaranteed linear parse time. Conventional backtracking Besöksadress: parsers suffer from exponential parse times in the worst case due to re-evaluating Ångströmlaboratoriet Lägerhyddsvägen 1 redundant results. This is avoided in packrat parsers with the use of memoization. Hus 4, Plan 0 However, memoization causes packrat parsers memory consumption to be linearly proportional to the input string, as opposed to linearly proportional to the maximum Postadress: recursion depth for conventional parsing techniques. Box 536 751 21 Uppsala The objective of this thesis is to implement a packrat parser generator and compare it Telefon: with an existing and well-known parser combination called Lex/Yacc which produces 018 – 471 30 03 shift-reduce parsers. The comparison will consist of pure performance measurements Telefax: such as memory consumption and parsing time, and also a more general comparison 018 – 471 30 00 between the two parsing techniques. Hemsida: The conclusion made from the comparison is that packrat parsing can be a viable http://www.teknat.uu.se/student option due to its ability to compose modular and extendible grammars more easily than Lex/Yacc. However, from a performance perspective the Lex/Yacc combination proved superior. In addition, the results indicate that similar performance for a packrat parser is hard to achieve on grammars similar to those used in this thesis. Handledare: Johan Runesson Ämnesgranskare: Lars-Henrik Eriksson Examinator: Roland Bol ISSN: 1401-5749, UPTEC IT 14 016 Tryckt av: Reprocentralen ITC Summary in Swedish Packratparsning ären parsingsteknik som togs fram av Bryan Ford 2002. Packratparsning är en s˚akallad top-down parsningsteknik som användersig utav backtracking. Konventionella top-down parsers som använderbacktracking kan i värstafall ha exponentiell körtidp˚agrund av att de utförredundanta evalueringar. Packratparsers undviker detta genom memoisering. Memoiseringen innebäratt alla evalueringar som görsunder parsningen sparas undan i en separat tabell föratt sedan kunna användasutifall samma evalueringar behöver upprepas. Om införande-och uppslagningsoperationerna p˚amemoiseringstabellen kan ske i konstant tid s˚a innebärdetta att en packratparser kommer ha en garanterad linjärkörtid. Packratparsers skiljer sig även fr˚anmer traditionella parsningsmetoder genom att packratparsers kan vara scannerless. Med detta menas att packratparsers ej behöver genomföraden lexikaliska analysen separat. B˚adeden lexikaliska analysen och parsningen kan ske med ett enda verktyg. Packratparsers användersig utav parsing-expressiongrammatiker som alltid producerar otvety- diga grammatiker. Detta skiljer s˚afr˚ande mer traditionella context-free grammatikerna som i vissa fall kan producera tvetydiga grammatiker. Packratparsers stödjeräven syntaktiska pre- dikat som ger packratparsers möjlighetenatt användasig utav en obegränsadlookahead. I denna rapport jämförspackratparsning med parserkombinationen Lex/Yacc. Lex/Yacc ären parsergenerator som producerar s˚akallade shift-reduce parsers. Företaget bakom detta examensarbete, IAR Systems, använderi dagslägetLex/Yacc förparsning av m˚angaav deras egna implementerade spr˚ak.Dock s˚auppelever dem att Lex/Yacc har en del brister som till exempel att specifkationerna förLex/Yacc följerolika syntax, felhanteringen m˚asteimplemen- teras manuellt, sv˚arigheteratt ha multipla parsers i samma program och att det generellt sett ärsv˚artatt utöka och ändragrammatikspecifikationerna förde tv˚averktygen. IAR Systems är därförintresserade av utifall packratparsning kan hantera dessa brister p˚aett bättresätt.Dock f˚arinte eventuella presentandaskillnader mellan dessa tv˚aparsningstekniker vara förstora. Föratt undersöka detta s˚ahar en packratparsergenerator vid namn Hilltop implementerats. Hilltop och Lex/Yacc har genererat parsers församma grammatiker och dessa parsers har sedan analyserats prestandamässigt;sett till körtidoch minnesförbrukning. Det har även gjorts en generell jämförelsemellan Hilltop och Lex/Yacc föratt belysa eventuella för-och nackdelar de olika parsningsteknikerna medför.Föratt f˚aett s˚arealistikt resultat som möjligts˚ahar grammatikerna som parsergeneratorerna testats p˚avarit grammatiker som IAR Systems använderi produktion. Källkodsfilerna som de genererade parserarna testats p˚aäräven dessa tagna fr˚an produktionen. Fögaförv˚anandes˚aframkommer det under resultatanalysen att parsers genererade utav Hilltop skiljer sig prestandamässigt,b˚adei avseende förkörtidoch minnesanvändning,gentemot parsers genererade utav Lex/Yacc. Denna skillnad i prestanda beror delvis p˚aatt im- plementationen utav Hilltop endast har p˚ag˚attunder en begränsadtid vilket resulterat i en del noterbara brister, bland annat hur strängjämförelser hanteras. I sitt nuvarande tillst˚and s˚askiljer sig parsers genererade utav Hilltop gentemot Lex/Yacc med en faktor 18.4-25.9 med hänsyntill körtid,och en faktor 25.9-34.9 vad gällerminnes˚atg˚ang.Dock s˚atros dessa faktorer kunna minska väsentligt med hjälpav diverse förbättringarp˚aimplementationen. Skillnaderna tros kunna reduceras s˚amycket s˚aatt det iställetskiljer en faktor tv˚aeller tre mellan genererade parsers. Packratparsers tros dock inte kunna bli prestandamässigtbättreänshift-reduce parsers genererade utav Lex/Yacc, i alla fall inte förgrammatiker liknande de som har använts i detta examensarbete. Vissa av de brister som Lex/Yacc kombinationen innehar hanteras p˚aett bättresättutav Hilltop. Främsts˚aärHilltops och packratparsers förm˚agaatt kunna moduläriseraoch utöka/ändra 1 sina grammatiker klart bättreänförgrammatiker specificerade med Lex/Yacc. Bristerna relaterat till felhantering och möjlighetenatt ha flera parsers i samma program ärförtillfälletej implementerat i Hilltop. Dock kan en generell felhanteringen implementeras och därmedbehöver användarenej implementera n˚agonfelhantering manuellt. Aven¨ stödför att ett program ska kunna inneh˚allamultipla parsers skall kunna implementeras utan större sv˚arigheter. Förm˚aganatt enkelt kunna moduläriseraoch utöka sina grammatiker med Hilltop och packratparsers göratt packratparsergeneratorer passar bra om nya liknande grammatiker implementeras eller om grammatiker omdefineras p˚aen regelbunden basis. Detta göratt en packratparsergenerator kan vara att föredrainom detta användningsomr˚ade.Däremot,om användaren ärmer intresserad av ren prestanda utav sin parser och inte regelbundet ändrareller skapar nya grammatiker s˚ast˚arsig parsergeneratorkombinationen Lex/Yacc sig väldigtstarkt, och är i detta fall att föredragentemot en packratparsergenerator. 2 Contents 1 Introduction 7 1.1 Background . .7 1.1.1 Packrat Parsing . .7 1.2 Problem Description . .8 1.3 Method . .9 1.3.1 Literature Review . .9 1.3.2 Implementation . .9 1.3.3 Analysis . .9 1.4 Limitations . .9 1.5 Thesis Outline . 10 2 Parsing 11 2.1 Regular Expressions . 11 2.2 Context-Free Grammars . 12 2.3 Bottom-Up Parsing . 12 2.3.1 Shift-Reduce Parsing . 13 2.4 Top-Down Parsing . 14 2.4.1 Backtrack Parsing . 14 2.4.2 Predictive Parsing . 15 2.4.3 Left Recursion . 16 2.5 Abstract Syntax Tree . 16 3 Packrat Parsing 18 3.1 Founding Work . 18 3.2 Parsing Expression Grammars . 18 3.2.1 Definition And Operators . 18 3.2.2 Ambiguity . 19 3.2.3 Left Recursion . 20 3.2.4 Syntactic Predicates . 20 3.3 Memoization . 21 3.4 Scannerless . 22 3.5 Parse Completion . 22 3.6 Practical Limitations . 23 3.6.1 Memory Consumption . 23 3.6.2 Maintaining States . 23 3 4 Lex/Yacc 25 4.1 Lex . 25 4.1.1 Ambiguity . 26 4.2 Yacc . 26 4.2.1 Ambiguity . 26 4.2.2 Left recursion . 27 5 Implementation 28 5.1 Treetop . 28 5.2 Hilltop . 29 5.2.1 Parse Tree . 31 5.2.2 Memoization . 32 5.3 Implemented Improvements . 33 5.3.1 Transient Productions . 33 5.3.2 Hashing . 34 5.4 General Comparison Between Hilltop and Lex/Yacc . 34 5.4.1 LALR(1) versus LL(k)............................. 34 5.4.2 Scannerless versus Separate Lexical Analyser and Parser . 34 5.4.3 Modularity and Extendibility . 35 5.4.4 Error Reporting . 35 5.4.5 Conflicts . 35 5.4.6 Parse Tree Creation . 36 6 Experimental Results 37 6.1 Testing Environment . 37 6.2 Parser Generation . 38 6.3 Parsing Time . 38 6.3.1 Grammar 1 . 39 6.3.2 Grammar 2 . 40 6.3.3 Discussion . 41 6.4 Memory Consumption . 42 6.4.1 Grammar 1 . 42 6.4.2 Grammar 2 . 44 6.4.3 Memoization Matrix Size . 45 6.4.4 Discussion . 46 6.5 Result Evaluation . 47 7 Related Work 48 7.1 Pappy . 48 7.2 Rats! ........................................... 48 7.3 The Cost of Using Memoization . 49 7.4 Packrat Parsing versus Primitive Recursive Descent Parsing . 49 8 Conclusion 51 8.1 Thesis Evaluation . 52 4 9 Future Work 53 9.1 Future Work . 53 9.1.1 Testing of More Grammars . 53 9.1.2 Array as Memoization Data Structure . 53 9.1.3 Hilltop with a Lexical Analyser . 53 9.1.4 Merging Choices with Common Prefixes . 54 9.1.5 Iterative Operators . 54 9.1.6 Left Recursion . 55 9.1.7 Cut Operator . 55 References 57 Appendix A A trivial grammar 60 Appendix B Treetop parser 61 Appendix C Hilltop parser 66 Appendix D Hilltop parse tree.

A Comparison Between Packrat Parsing and Conventional Shift-Reduce Parsing on Real-World Grammars and Inputs

Syntax-Directed Translation, Parse Trees, Abstract Syntax Trees

An Efficient Implementation of the Head-Corner Parser

Derivatives of Parsing Expression Grammars

Modular Logic Grammars

Parsing 1. Grammars and Parsing 2. Top-Down and Bottom-Up Parsing 3

Abstract Syntax Trees & Top-Down Parsing

The Evolution of the Unix Time-Sharing System*

An Analysis of the D Programming Language

An Analysis of the D Programming Language Sumanth Yenduri University of Mississippi- Long Beach

Compiler Construction

The UNIX Time- Sharing System

Unix Programmer's Manual