Synergies Between Chemometrics and Machine Learning

Synergies between Chemometrics and Machine Learning Rickard Sjögren Department of Chemistry, Umeå University Umeå, Sweden, 2021 This work is protected by the Swedish Copyright Legislation (Act 1960:729) Dissertation for PhD ISBN: 9789178555581 (print) ISBN: 9789178555598 (pdf) The cover art illustrates a brain and a tree. I simply thought it looked nice. Image attribution: Gordon Johnson, USA. (GDJ @ Pixabay) Electronic version available at: http://umu.divaportal.org/ Printed by: Cityprint i Norr AB Umeå, Sverige, 2021 Don’t worry, be happy. Table of Contents Abstract ........................................ ii Sammanfattning på svenska ............................. iii List of Publications .................................. iv Other Publications ................................... v Abbreviations ..................................... vii Notation ........................................viii 1 Introduction 1 1.1 Scope of this Thesis ............................... 3 2 Background 4 2.1 What is data? .................................. 4 2.2 Machine Learning ............................... 5 2.2.1 Machine Learning Models ...................... 7 2.2.2 Deep Learning ............................ 9 2.2.3 Data Preprocessing .......................... 14 2.3 Chemometrics ................................. 15 2.3.1 Data generation ............................ 15 2.3.2 Data Analysis ............................. 17 2.3.3 Predictive Modelling ......................... 18 2.3.4 Model Diagnostics .......................... 20 3 Results 21 3.1 Summary of Paper Contributions ....................... 23 3.2 Paper I: MVDA for Patent Analytics ...................... 24 3.3 Paper II: DOE for Data Processing Pipelines . 26 3.4 Paper III: Outlier Detection in ANNs ..................... 27 3.4.1 Additional Case Studies ....................... 29 3.5 Paper IV: Quality Assurance in Large Data Projects . 33 4 Future Perspectives 36 4.1 Separating Sources of Variation ........................ 36 4.2 Rethinking PLS Weights ............................ 37 Acknowledgements 40 Bibliography 42 i Abstract Thanks to digitization and automation, data in all shapes and forms are generated in ever growing quantities throughout society, industry and science. Datadriven methods, such as machine learning algorithms, are already widely used to benefit from all these data in all kinds of applications, ranging from text suggestion in smartphones to process monitoring in industry. To ensure maximal benefit to society, we need workflows to generate, analyze and model data that are performant as well as robust and trustworthy. There are several scientific disciplines aiming to develop datadriven methodologies, two of which are machine learning and chemometrics. Machine learning is part of artificial intel ligence and develops algorithms that learn from data. Chemometrics, on the other hand, is a subfield of chemistry aiming to generate and analyze complex chemical data in an optimal manner. There is already a certain overlap between the two fields where machine learning algorithms are used for predictive modelling within chemometrics. Although, since both fields aims to increase value of data and have disparate backgrounds, there are plenty of possible synergies to benefit both fields. Thanks to its wide applicability, there are many tools and lessons learned within machine learning that goes beyond the predictive models that are used within chemometrics today. On the other hand, chemometrics has always been applicationoriented and this pragmatism has made it widely used for quality assur ance within regulated industries. This thesis serves to nuance the relationship between the two fields and show that knowl edge in either field can be used to benefit the other. We explore how tools widely used in applied machine learning can help chemometrics break new ground in a case study of text analysis of patents in Paper I. We then draw inspiration from chemometrics and show how principles of experimental design can help us optimize largescale data processing pipelines in Paper II and how a method common in chemometrics can be adapted to al low artificial neural networks detect outlier observations in Paper III. We then show how experimental design principles can be used to ensure quality in the core of concurrent ma chine learning, namely generation of largescale datasets in Paper IV. Lastly, we outline directions for future research and how stateoftheart research in machine learning can benefit chemometric method development. ii Sammanfattning på svenska Tack vare digitalisering och automation genereras växande mängder data i alla möjliga for mer runtom i samhället, industrin och akademin. För att utnyttja dessa data på bästa vis används redan idag så kallade datadrivna metoder, till exempel maskininlärning, i mängder av tillämpningar i allt ifrån förslag av nästa ord i SMS på smartphones till processövervakning inom industri. För att maximera samhällsnyttan av den data som genereras behöver vi ro busta och pålitliga arbetsflöden för att skapa, analysera och modellera data för alla tänkbara tillämpningar. Det finns många vetenskapliga fält som utvecklar och utnyttjar datadrivna metoder, där två av dessa är maskininlärning och kemometri. Maskininlärning faller inom det som kallas ar tificiell intelligens och utvecklar algoritmer som lär sig från data. Kemometri däremot har sitt ursprung i kemi och utvecklar metoder för att generera, analysera och maximera värdet av komplexa kemiska data. Det finns ett visst överlapp mellan fälten där maskininlärnings algoritmer används flitigt för prediktiv modellering inom kemometrin. Eftersom bägge fält försöker öka värdet av data och har vitt skilda bakgrunder finns det många potentiella syn ergieffekter. Tack vare att maskininlärning är så vida använt finns det många verktyg och lärdomar utöver dom prediktiva modeller som redan används inom kemometrin. Å an dra sidan har kemometri alltid varit inriktat på praktisk tillämpning och har tack vare sin pragmatism lett till att det idag är välanvänt för kvalitetsarbete inom reglerad industri. Den här avhandlingen har som mål att nyansera förhållandet mellan kemometri och maskin inlärning och visa att lärdomar inom vardera fält kan gynna det andra. Vi visar på hur man kan använda verktyg vanliga inom maskininlärning för att hjälpa kemometrin att bryta ny mark i en casestudie på textanalys av patentsamlingar i Paper I. Sedan lånar vi från kemometrin och visar hur vi kan använda experimentdesign för att optimera storskaliga beräkningsflöden i Paper II och hur en vanlig metod inom kemometrin kan formuleras om för att för att upptäcka avvikande mätningar i artificiella neuronnät i Paper III. Efter det visar vi hur principer från experimentdesign kan användas för att säkerställa kvalitet i kärnan av modern maskininlärning, nämligen skapandet av stora dataset i Paper IV. Till sist ger vi förslag på framtida forskning och hur de senaste metoderna inom maskin inlärning kan gynna metodutveckling inom kemometrin. iii List of Publications This thesis is based upon the following publications: Paper I Multivariate patent analysis — Using chemometrics to analyze collections of chemical and pharmaceutical patents, Rickard Sjögren, Kjell Stridh, Tomas Skotare, Johan Trygg Journal of Chemometrics 34.1 (2020): e3041. DOI: 10.1002/cem.3041 Paper II doepipeline: a systematic approach to optimizing multilevel and multistep data processing workflows, Daniel Svensson†, Rickard Sjögren†, David Sundell, Andreas Sjödin, Johan Trygg BMC bioinformatics 20.1 (2019): 498. DOI: 10.1188/s128590193091z Paper III OutofDistribution Example Detection in Deep Neural Net works using Distance to Modelled Embedding, Rickard Sjögren, Johan Trygg Manuscript under review Machine Learning Paper IV LIVECell A largescale dataset for labelfree live cell segmen tation Christoffer Edlund†, Timothy R Jackson†, Nabeel Khalid†, Nicola Bevan, Timothy Dale, Andreas Dengel, Sheraz Ahmed, Johan Trygg, Rickard Sjögren Manuscript under review Nature Methods Where applicable, the papers are reprinted with permission from the publisher. †These authors made equal contributions iv Other Publications These publications by the author are not included in this thesis: Paper V Visualization of descriptive multiblock analysis, Tomas Skotare, Rickard Sjögren, Izabella Surowiec, David Nilsson, Johan Trygg Journal of Chemometrics 34.1 (2020): e3071. DOI: 10.1002/cem.3071 Paper VI Joint and unique multiblock analysis of biological data– multiomics malaria study, Izabella Surowiec, Tomas Skotare, Rickard Sjögren, Sandra GouveiaFigueira, Judy Orikiiriza, Sven Bergström, Johan Nor mark, Johan Trygg Faraday discussions 218 (2019): 268283. DOI: 10.1039/C8FD00243F Paper VII A geographically matched control population efficiently limits the number of candidate diseasecausing variants in an unbi ased wholegenome analysis, Matilda Rentoft, Daniel Svensson, Andreas Sjödin, Pall I Ola son, Olle Sjöström, Carin Nylander, Pia Osterman, Rickard Sjö gren, Sergiu Netotea, Carl Wibom, Kristina Cederquist, Andrei Chabes, Johan Trygg, Beatrice S Melin, Erik Johansson PloS one 14.3 (2019): e0213350. DOI: 10.1371/journal.pone.0213350 Paper VIII A Machine Vision Approach for Bioreactor Foam Sensing, Jonas Austerjost, Robert Söldner, Christoffer Edlund, Johan Trygg, David Pollard, Rickard Sjögren SLAS Technology (2021) DOI: 10.1177/24726303211008861 v Following patent applications relate to Paper IV included in this thesis: I

Load more