Multivariate Statistical Methods to Analyse Multidimensional Data in Applied Life Science
Total Page:16
File Type:pdf, Size:1020Kb
Multivariate statistical methods to analyse multidimensional data in applied life science Dissertation zur Erlangung des Doktorgrades der Naturwissenschaften (Dr. rer. nat.) der Naturwissenschaftlichen Fakult¨atIII Agrar- und Ern¨ahrungswissenschaften, Geowissenschaften und Informatik der Martin-Luther-Universit¨atHalle-Wittenberg vorgelegt von Frau Trutschel (geb. Boronczyk), Diana Geb. am 18.02.1979 in Hohenm¨olsen Gutachter: 1. Prof. Dr. Ivo Grosse, MLU Halle/Saale 2. Dr. Steffen Neumann, IPB alle/Saale 3. Prof. Dr. Andr´eScherag, FSU Jena Datum der Verteidigung: 18.04.2019 I Eidesstattliche Erklärung / Declaration under Oath Ich erkläre an Eides statt, dass ich die Arbeit selbstständig und ohne fremde Hilfe verfasst, keine anderen als die von mir angegebenen Quellen und Hilfsmittel benutzt und die den benutzten Werken wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe. I declare under penalty of perjury that this thesis is my own work entirely and has been written without any help from other people. I used only the sources mentioned and included all the citations correctly both in word or content. __________________________ ____________________________________________ Datum / Date Unterschrift des Antragstellers / Signature of the applicant III This thesis is a cumulative thesis, including five research articles that have previously been published in peer-reviewed international journals. In the following these publications are listed, whereby the first authors are underlined and my name (Trutschel) is marked in bold. 1. Trutschel, Diana and Schmidt, Stephan and Grosse, Ivo and Neumann, Steffen, "Ex- periment design beyond gut feeling: statistical tests and power to detect differential metabolites in mass spectrometry data", Metabolomics, 2015, available at: https:// link.springer.com/content/pdf/10.1007/s11306-014-0742-y.pdf 2. Trutschel, Diana and Schmidt, Stephan and Grosse, Ivo and Neumann, Steffen, "Joint analysis of dependent features within compound spectra can improve detection of differ- ential features", Frontiers in Bioengineering and Biotechnology, 2015, available at: https: //www.frontiersin.org/articles/10.3389/fbioe.2015.00129/full 3. M¨onchgesang, Susann and Strehmel, Nadine and Trutschel, Diana and Westphal, Lore and Neumann, Steffen and Scheel, Dierk, "Plant-to-Plant Variability in Root Metabo- lite Profiles of 19 Arabidopsis thaliana Accessions Is Substance-Class-Dependent", In- ternational Journal of Molecular Sciences, 2016, available at: http://www.mdpi.com/ 1422-0067/17/9/1565 4. Trutschel, Diana and Palm, Rebecca and Holle, Bernhard and Simon, Michael, "Method- ological approaches in analysing observational data: a practical example on how to ad- dress clustering and selection bias", International Journal of Nursing Studies, 2017, avail- able at: http://www.sciencedirect.com/science/article/pii/S0020748917301426? via%3Dihub 5. Palm, Rebecca and Trutschel, Diana and Simon, Michael and Bartholomeyczik, Sabine and Holle, Bernhard, ”Differences in Case Conferences in Dementia Specific vs Tradi- tional Care Units in German Nursing Homes: Results from a Cross-Sectional Study", Journal of the American Medical Directors Association, 2016, available at: https:// www.jamda.com/article/S1525-8610(15)00557-5/fulltext I hereby declare that the copyright of the content of the articles Trutschel et al., 2015b (2), M¨onchgesang et al., 2016 (3) and Trutschel et al., 2017 (4) is by the authors (under Creative Commons License). I hereby declare that the copyright of the content of the article Trutschel et al., 2015a (1) is by c Springer Science+Business Media New York 2015. I hereby declare that the copyright of the content of the article Palm et al., 2016 (5) is by c 2016 AMDA { The Society for Post-Acute and Long-Term Care Medicine. V Zusammenfassung Angwandte Lebenswissenschaften sind interdisziplin¨areForschungsbereiche, die umfangreiche statistische und computergest¨utzteMethoden ben¨otigenum gesammelte Daten zu organ- isieren, visualisieren und analysieren, insbesondere seitdem die Komplexizit¨atder Daten in diesen Forschungsfeldern selbst immer mehr zunimmt. F¨urdie Datenanalyse ist es wiederum wichtig, Studien durchdacht zu konzipieren und geeignete Methoden f¨urdie Analyse zu w¨ahlen,um valide Ergebnisse f¨urwissenschaftliche Entscheidungen zu erhalten. Um dieses Ziel zu erreichen, wird Wissen ¨uber die Daten- struktur und -eigenschaften ben¨otigt,unabh¨angigin welchem wissenschaftlichen Bereich gear- beitet wird. Benutzerfreundliche Programme, die komplizierte mathematische und comput- ergest¨utzteMethoden aufbereiten und f¨urden praktischen Anwender zug¨anglich machen, sind dabei ebenfalls unverzichtbar geworden. Der Fokus dieser Dissertation liegt auf der methodologischen Erarbeitung solcher Verfahren ebenso wie auf deren Anwendung bei der Analyse von Daten in realen Studien. Die Heraus- forderungen bei der Datenanalyse kommen durch die verschiedenen Dateneigenschaften zu- stande und werden hier am Beispiel von zwei Lebenswissenschaften aufgezeigt: Metabolomik und Gesundheitsversorgung. W¨ahrendmeiner Arbeit in beiden Bereichen hat sich gezeigt, dass obwohl beide Wissenschaften verschiedene Fragestellungen zu beantworten versuchen, die methodische Vorgehensweise ebenso wie die mathematischen L¨osungsans¨atze¨ahnlich sind. Metabolomik ist eine Schl¨usseldisziplinin der Systembiologie. Das komplette Set an kleinen Molek¨ulenin einem Organismus, das Metabolom, wird hier untersucht. Zur Identifizierung und Quantifizierung dieser kleinen Molek¨ule(Metabolite) in solchen komplexen Gemischen werden oft Methoden der Massenspektrometrie genutzt. Die Metabolomforschung besch¨aftigtsich mit metabolischen und regulatorischen Mechanismen, die das Wachstum, die Entwicklung und die Stressantwort von Organismen beeinflussen. Einen großen Teil nehmen dabei Experimente mit analytischem Character ein um diese Informationen zu erhalten. Die Daten aus solchen Experimenten m¨ussenjedoch mit geeigneten Methoden ausgewertet werden k¨onnen. Ein Teilbereich der Gesundheitsversorgung ist die Pflegewissenschaft. Sie hat unter anderem zum Ziel, die Pflegepraxis anzuleiten und die Pflege und Lebensqualit¨atder Patienten zu verbessern. Durch die Uberalterung¨ der Gesellschaft liegt heutzutage ein vermehrtes Interesse auf der Reduktion der Gesundheitsversorgungskosten und der Erhaltung der Lebensqualit¨at von Erkrankten mit neurokognitive St¨orungen(Demenz), ebenso wie auf der Erleichterung der Pflege und dem Schutz vor extremer Arbeitsbelastung der Pflegenden. Um sich dieser Fragen anzunehmen werden zum Teil sehr komplexe Systeme untersucht, so dass der Vorgang f¨urdas Sammeln und die Analyse der Daten nach keinen festen Muster ablaufen kann, sondern eher, je nach Fragestellung in Bezug auf die Pflege von Personen mit Demenz, flexible Antworten ben¨otigtwerden. In beiden wissenschaftlichen Gebieten werden spezifische wissenschaftliche Fragen gestellt. Die Eigenschaften der Daten, die zur Beantwortung der Fragen gewonnen werden, k¨onnensich zwischen den zwei Gebieten sehr unterscheiden oder auch ¨ahneln. Aber unabh¨angigdavon, wie sehr sich beide Wissenschaftsgebiete unterscheiden, in den meisten F¨allenfindet man in den Daten Abh¨angigkeiten und Korrelationen zwischen verschiedenen Variablen, die mit multivariate Methoden analysiert werden. Diese Arbeit beinhaltet drei methodische Artikel, die verschiedene multivariate Methoden untersuchen, und zwei Artikel, die die Analyse einer realen Studie unter Anwendung dieser Methoden pr¨asentieren. VII Summary Applied life sciences are interdisciplinary fields, which require profound statistical and com- putational methods to organize, visualize and analyse the obtained data, especially, since the complexity of data has grown. For data analysis carefully designed studies and appropriate methods are important to make conclusions on the basis of valid results. This needs knowledge about data structure and characteristics, whatever in which scientific field. Furthermore, user-friendly applications to make difficult mathematical and computational methods available for practitioners are essential for these applied sciences. In this thesis the focus is on a methodological point of view as well as showing the application of provided methods in analysing data of real studies. The challenges on data analysis depend- ing on several data characteristics are shown within two applied life sciences: metabolomics and health care. During my work in both fields, it has been shown, that the possible solutions and mathematical approaches are similar although both sciences have different issues. Metabolomics - a key discipline in system biology - investigates the metabolome, which is a complete set of small molecules in an organism. For the identification and quantification of such molecules, the metabolites, in complex mixtures mass spectrometry based methods are often used. Metabolomic research helps to get insights into the metabolic and molecular regulatory mechanisms contoling the growth, development and stress responses of organism. A major part therefore takes the conduction of experiments with analytical character, which have to be analysed with appropriate methods to receive these insights. Nursing science is one part of health care, where clinical nursing service research has the aim to guide nursing practice and to improve care and quality of life of patients. Related to the population ageing, nowadays, there is a special interest within nursing service research on neurocognitive disorders, popularly