Datamining in Non-Target Chemical Screening Data
Total Page:16
File Type:pdf, Size:1020Kb
BTO 2015.062 | October 2015 BTO report Datamining in non- target chemical screening data BTO 2015.062 | October 2015 Datamining in non-target chemical screening data BTO 2015.062 | October 2015 Datamining in non-target chemical screening data BTO Datamining in non-target chemical screening data BTO 2015.062 | October 2015 Project number 400554103 Project manager Stefan Kools Client BTO Quality Assurance Annemarie van Wezel Author(s) Rosa Sjerps, Dennis Vughs, Dirk Vries, Thomas ter Laak, Ton van Leerdam Sent to This report is distributed to BTO-participants. A year after publication it is public. BTO 2015.062 | October 2015 Datamining in non-target chemical screeningsdata BTO Managementsamenvatting Suspect screening met verdere identificatie ondersteunt opsporing nieuwe antropogene stoffen in brede screeningsdata Auteur(s) Rosa Sjerps MSc; ing. Dennis Vughs; dr.ir. Dirk Vries; dr. Thomas ter Laak; ing. Ton van Leerdam Suspect screening is in staat om betere toegang te verschaffen tot de omvangrijke databestanden met meerdere jaren aan LC-MS-gegevens over (voornamelijk onbekende) microverontreinigingen. Dat blijkt uit onderzoek naar snellere en effectievere verwerking van de bulk aan brede screeningsdata voor het ontsluiten van informatie over relevante antropogene stoffen. De aanpak biedt kansen voor toekomstig waterkwaliteitsonderzoek met behulp van brede screeningsmethoden. Daarnaast laat de dataset significante verschillen zien tussen de monsters van uiteenlopende watertypen: het aantal stoffen, de somconcentratie en de gemiddelde retentietijd bij chromatografische analyse. Met Principle Component Analysis en een statistische clusteringsmethode konden suspects naar chemische eigenschap worden gegroepeerd. De gebruikte methodiek bleek echter niet geschikt om uit de huidige dataset clusters te vinden die relateren aan watertype of het voorkomen in water. Voor verdere data-analyse wordt aanbevolen om de zekerheid van de stofidentiteit te verhogen en een kleinere set van typische chemische eigenschappen (expert- of data-gedreven) te selecteren. 100 10 1 0.1 0.01 0.001 Somconcentratie (ug/l IS-eq) EFF (n=17) OW (n=73) GW (n=39) DW (n=20) Watertype De verschillen in somconcentratie van de stoffen per monster (in interne standaard equivalenten) tussen de verschillende watertypen. EFF = effluent, OW = oppervlaktewater, GW = grondwater, DW = drinkwater. BTO 2015.062 | October 2015 Datamining in non-target chemical screeningsdata Belang: ontsluiten van brede screeningsdata Component Analysis (PCA) blijkt een hoge Brede screeningsanalyses die gedurende de variabiliteit in chemische descriptoren van de afgelopen jaren zijn verzameld, bevatten een schat suspects te bestaan, die niet te vatten is met twee aan informatie. De gegevens zijn afkomstig van nieuw gedefinieerde variabelen. Een statistische monsters van drinkwater, grondwater, clusteringsmethode was bruikbaar om stoffen naar oppervlaktewater en afvalwater effluenten. Het is chemische eigenschap te groeperen. De gebruikte echter niet makkelijk om uit al deze data de methodiek bleek echter niet geschikt om uit de informatie en kennis te destilleren die erin ligt huidige dataset clusters te vinden die relateren aan opgesloten (Hogenboom et al., 2009). Nieuwe watertype of het voorkomen in water. Voor verdere software maakt het mogelijk om grote aantallen data-analyse wordt aanbevolen om de zekerheid monsters onderling te vergelijken en om deze van de stofidentiteit te verhogen en een kleinere gelijktijdig te screenen op meerdere (on)bekende set van typische chemische eigenschappen (expert- stoffen. of data-gedreven) te selecteren. Aanpak: suspect screening en statistische analyse Implementatie: suspect screening als waardevolle De eerste fase van het onderzoek bestond uit het methode bij het interpreteren van screeningsdata screenen van een grote hoeveelheid aan brede Suspect screening blijkt een krachtige techniek te screeningsgegevens (151 monsters) bij een zijn voor het opsporen van nieuwe antropogene voorselectie van relevante antropogene stoffen op stoffen, mits verdere identificatie wordt uitgevoerd. de Europese markt (5.200 stoffen). Vervolgens Toepassing ervan is mogelijk als invulling van de werden in een andere studie stoffen geprioriteerd doelstelling van het bestuderen van “overige (BTO 2015.003). In de tweede fase van het antropogene stoffen” uit het Drinkwaterbesluit. Het onderzoek lag de focus op het herkennen van identificeren van nieuwe stoffen geeft richting aan patronen in de aanwezigheid van stoffen in monitoring en het veilig houden van de verschillende watertypen. Met behulp van waterkwaliteit. statistische methoden zijn de monsters onderling vergeleken. Zowel de grootschalige suspect Na identificatie van de suspects is het in principe screening als de gebruikte statistische methoden mogelijk om op basis van chemische zijn nieuw voor data-analyse van breed screenend eigenschappen relaties tussen een specifiek chemisch onderzoek. watertype en het voorkomen van een stof te bepalen. Dergelijke relaties helpen bij het Resultaten: 1.260 potentiële kandidaatstoffen inschatten van het gedrag van niet-geanalyseerde Suspect screening koppelt (onbekende) stoffen uit stoffen in water. brede screeningdata aan potentiele kandidaten. Van de 5.200 ‘suspects’ werden 1.260 stoffen Rapport benoemd als potentiële kandidaatstoffen voor 700 Dit onderzoek is beschreven in rapport Datamining gedetecteerde massa’s. Een massa kon worden in non-target chemical screeningsdata (BTO- gekoppeld aan meerdere kandidaatstoffen. De 2015.062) en verdure stofprioritering in Data- resultaten laten tussen de monsters van de driven prioritization of chemicals for various water uiteenlopende watertypen significante verschillen types using suspect screening LC-HRMS (BTO zien in het aantal stoffen, de somconcentratie en 2015.003). de gemiddelde retentietijd. Op grond van Principle BTO 2015.062 | October 2015 Datamining in non-target chemical suspect screening data 1 Contents 1 Introduction 2 1.1 Introduction 2 2 Suspect screening of LC-HRMS screening data 3 2.1 Introduction 3 2.2 Material and methods 3 2.3 Results 6 2.4 Discussion 6 3 Multivariate analysis of LC-HRMS screening data 8 3.1 Introduction 8 3.2 Material and methods 9 3.3 Results 10 3.4 Discussion and recommendations 26 4 Conclusion 28 4.1 Conclusion 28 4.2 Future studies 28 References 30 BTO 2015.062 | October 2015 Datamining in non-target chemical suspect screening data 2 1 Introduction 1.1 Introduction In the last 10 years non-target chemical screening data of water samples have been collected at KWR. The liquid chromatography-high resolution mass spectrometry (LC-HRMS) analysis is a more comprehensive method for broad screening water quality than the commonly used target analysis (Ter Laak., 2010) and provides qualitative information on a broad spectrum of chemicals present in the water samples. However, the identification and quantification of all observed compounds remains challenging. The collected large set of water quality monitoring data contains much information on the presence of chemicals. In the last years, over 150 samples were analysed of waste water effluent, surface water, groundwater and drinking water samples all over The Netherlands. Besides the presence of chemicals, this large dataset contains information on the occurrence of chemicals related to geographical setting, hydrology and land use. However, uncertainties on identification and quantification of compounds make it hard to distil relevant information and obtain knowledge on water quality (Hogenboom et al., 2009). Therefore, in this study we extract information from the derived data in non-target chemical screening. The study is divided in two phases. The first phase deals with the selection of potential candidates for identification of chemicals using suspect screening. The second phase links the occurrence of compounds to different water types. In the first phase we extract most relevant information from the non-target screening LC- HRMS dataset. Therefore we use software to study the presence of compounds in the samples through the years. The identification of the compounds is based on ‘suspect screening’, a recently developed tool to link peaks of an exact mass in chromatograms to known molecular formulas of suspect chemicals. The size of the suspects screening makes this study unique; the study is performed with 5219 suspects, represented by chemicals on the European market, and LC-HRMS screening data of 151 water samples. This tool focusses on the presence of anthropogenic compounds and has the advantage to make a selection of potential relevant compounds being produced at large scale or containing toxic properties. The second phase focusses on the relation between the presence or absence of (groups of) compounds and the water types. First it is studied if the water types (waste water effluent, surface, groundwater and drinking water) show different characteristics for chromatographical parameters (retention time, total concentration). Second, multivariate statistical methods are used to obtain information on the chemical properties of compounds present in different water types. This last method can be considered as a try-out for the application of multivariate statistics in suspect screening results. BTO 2015.062 | October 2015 Datamining in non-target chemical suspect screening data 3 2 Suspect screening of LC-HRMS screening data 2.1 Introduction In recent years liquid chromatography-high resolution mass spectrometry (LC-HRMS) is increasingly used