<<

Prakash, A.; Sandfeld, S.: Data / Dateninformatik

A. Prakash, S. Sandfeld Chances and Challenges in Fusing Data Science with Chancen und Herausforderungen bei der Verschmelzung von Datenwissenschaft und Werkstoffwissenschaft The working group “3D Data Science” is headed by Prof. Dr. Stefan Sandfeld.

Received: May 25, 2018 Eingegangen: 25. Mai 2018 Accepted: May 29, 2018 Angenommen: 29. Mai 2018 Übersetzung: V. Müller Abstract Kurzfassung Data science and informatics have Datenwissenschaft und -informatik sind im emerged as the fourth paradigm of sci- letzten Jahrzehnt als Viertes Paradigma der entific research over the past decade. Al- wissenschaftlichen Forschung in Erschei- though the impact of this new paradigm is nung getreten. Obwohl die Auswirkungen very apparent in many scientific fields and dieses neuen Paradigmas in vielen wissen- has seen many success stories, the field schaftlichen Gebieten deutlich zum Ausdruck of materials informatics – data science and kommen und bereits in vielen Fällen erfolg- informatics for materials science and en- reich angewandt wurden, steckt die Werk- gineering – is still in its infancy. Based on stoffinformatik – Datenwissenschaft und -in- the availability of data, the field of materials formatik im Bereich der Materialwissenschaft science would be ideal for data analytics und Werkstofftechnik – noch immer in den and informatics, particularly if such data is Kinderschuhen. Auf Basis der Verfügbarkeit shared with the larger materials science von Daten würde sich das Gebiet der Werk- community. In this work, we discuss the stoffwissenschaften ideal für Datenanalyse advantages of digitalization and data sci- und -informatik eignen, vor allem wenn solche ence, current challenges for experiments Daten von einer größeren Gemeinschaft von and simulations involving data manage- Werkstoffwissenschaftlern genutzt wird. Diese

Authors:

Aruna Prakash, Stefan Sandfeld Micromechanical Materials Modelling (MiMM), Institute of Mechanics and Fluid Dynamics, Technische Universität Bergakademie Freiberg (TUBAF), Lampadiusstr. 4, 09599 Freiberg, Germany; e-mail: [email protected]

Pract. Metallogr. 55 (2018) 8 © Carl Hanser Verlag, München 493 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

ment, acquisition and sharing, and look at Arbeit diskutiert die Vorteile der Digitalisierung possible solutions. und Datenwissenschaft, aktuelle Herausforde- rungen bei experimentellen Untersuchungen und Simulationen, die Datenmanagement, -erhebung und -nutzung beinhalten und stellt mögliche Lösungsansätze vor.

1. Introduction 1. Einleitung Scientific exploration in the field of mate- Wissenschaftliche Untersuchungen auf dem rials science and engineering (MSE) has Gebiet der Materialwissenschaft und Werk- traditionally evolved around the three main stofftechnik (MSE, Materials Science and En- paradigms of experiments/empirical rea- gineering) haben sich traditionell um die drei soning, theory/modeling and computation/ Hauptparadigmen – Experimente/empirische simulation (cf. Fig. 1). In the past decade, Begründung, Theorie/Modellierung und Be- data science and informatics (DSI) has rechnung/Simulation (vgl. Bild 1) – heraus- evolved as the fourth paradigm [1], and gebildet. Im letzten Jahrzehnt sind Datenwis- has shown great potential for significantly senschaft und -informatik (DSI, Data Science accelerating materials development [2, 3]. and Informatics) als Viertes Paradigma [1] in DSI distinguishes itself from the computa- Erscheinung getreten und haben großes Po- tional paradigm, in that the latter involves tenzial für eine deutliche Beschleunigung der solution methodologies to well formulated Entwicklung neuer Werkstoffe gezeigt [2, 3]. problems, whilst the former deals with pat- DSI unterscheidet sich vom rechnergestützten tern recognition and finding links between Paradigma insofern, dass letzteres Lösungs- different sets of data [4]. The quality of the methodiken zu gut formulierten Problemen be- solution in the computational paradigm inhaltet, während sich DSI mit Mustererkennung is strongly dependent on the quality, so- und der Erkennung von Verknüpfungen zwi- phistication and predictive capability of schen verschiedenen Datensätzen beschäftigt the underlying model. By contrast, DSI is [4]. Die Qualität des Lösungskonzepts, das model-free; the quality of the solution is de- auf dem rechnergestützten Paradigma beruht, termined solely by the underlying data. This hängt stark von der Qualität, Differenziertheit characteristic feature makes it particularly und Vorhersagbarkeit des zugrundeliegenden attractive for increased synergy between Modells ab. Im Unterschied dazu arbeiten the three principal paradigms, particularly Datenwissenschaft und -informatik modell- between experiments and computations, frei; die Qualität des Lösungsansatzes hängt or even between methods of a particular allein von den zugrundeliegenden Daten ab. paradigm. Some examples of such stud- Diese charakteristische Eigenschaft ist be- ies, which result in high data requirements, sonders interessant für das Erreichen eines include: besseren Zusammenwirkens der drei Haupt- paradigmen, v. a. von experimentellen Unter- suchungen und Berechnungen oder sogar von Verfahren innerhalb eines bestimmten Para- digmas. Bespiele von Untersuchungen, die zu hohen Datenanforderungen führen, sind u. a.: • High throughput experiments and simu- • Hoch-Durchsatz-Untersuchungen und -Si- lations, including tomography investiga- mulationen, darunter tomografische Unter- tions [e. g. 5 – 10]. suchungen [z. B. 5 – 10].

494 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

• Experimentally informed large-scale at- • Experimentell gestützte, großskalige at­ omistic simulations [e. g. 11 – 13]. omis­tische Simulationen [z. B. 11 – 13]. • High throughput crystal plasticity simu- • Hoch-Durchsatz-Simulationen zur Kristall- lations, including integrated computa- plastizität, darunter auch computergestütz- tional materials engineering studies [e. g. te Studien auf dem Gebiet der Werkstoff­ 14, 15]. entwicklung [z. B. 14, 15]. • Combined simulation strategies [16 – 20]. • Kombinierte Simulationsstrategien [16 – 20]. • Multiscale methods, including concur- • Multiskalen-Methoden, darunter nebenläu- rent frameworks [21 – 23, 49]. fige Frameworks [21 – 23, 49]. DSI shows excellent potential for obtaining DSI zeigt außerordentlich großes Potenzial further and new insightful information from hinsichtlich der Gewinnung neuer und auf- such studies [24 – 26]. The attractive feature schlussreicher Informationen aus solchen of DSI is that it is independent of the tech- Studien [24 – 26]. Eine interessante Eigen- nique used to acquire the data, and can schaft ist, dass DSI unabhängig von dem hence be used by experimentalists, mod- Verfahren ist, mit dem die Daten erhoben elers and simulation scientists alike. In this wurden, und somit gleichermaßen von Expe- regard, DSI acts more like a reservoir that rimentatoren, Modellierern und Simulations- is fed by the three other paradigms (see, wissenschaftlern genutzt werden kann. In Fig. 1). This opens up a multitude of oppor- dieser Hinsicht verhält sich DSI eher wie ein tunities to gain deeper and better insights Speicher, der durch die anderen drei Paradig- by combining data from various sources, men gespeist wird (s. Bild 1). Somit eröffnen particularly experiments and simulations, sich vielerlei neue Möglichkeiten, um tiefere thus improving our knowledge on mate- und bessere Erkenntnisse zu erlangen, indem rial behavior. With the application of cur- Daten aus diversen Quellen, besonders aus rently available DSI toolsets having already experimentellen Untersuchungen und Simu- shown great success in many fields, and lationen kombiniert werden, was somit dazu many being developed, the times ahead beiträgt, unser Verständnis für das Verhalten are indeed promising for materials scien- von Werkstoffen zu verbessern. Da die An- tists. wendung von derzeitig verfügbaren DSI- Software-Werkzeugen bereits große Erfolge in vielen Bereichen verbuchen konnte und derzeit etliche neue Software-Werkzeuge entwickelt werden, sehen Werkstoffwissen- schaftler einer vielversprechenden Zukunft entgegen. The availability of data is hence at the very Die Verfügbarkeit von Daten bildet somit das heart of DSI. Buzzwords like Digitaliza- Herzstück von DSI. Schlagwörter wie Digi- tion, Industry 4.0, Digital Twin, Big Data, talisierung, Industrie 4.0, Digitaler Zwilling, etc. make their appearance in this context. Big Data, usw. treten in diesem Zusammen- The pervasive nature of such buzzwords hang auf. Ungeachtet der Allgegenwärtigkeit notwithstanding, it is important to under- solcher Schlagwörter, ist es wichtig, deren stand their impact and relevance from the Bedeutung und Relevanz aus der Sicht eines point of view of an individual researcher. einzelnen Forschers zu verstehen. D. h. die That is to say, to answer the simple ques- einfache Frage zu beantworten, die mög- tion that materials scientists are perhaps licherweise (und zu Recht) von Werkstoff-

Pract. Metallogr. 55 (2018) 8 495 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

Fig 1: A schematic representation of the four paradigms of scientific exploration. Traditionally science has evolved around the three paradigms of Experiments, Theory and Computations. With the advent of Data Science and Informatics, a new field has opened up, which allows, for instance, data from electron back-scatter diffraction and crystal plasticity finite element simulations, or from transmission electron microscopy and 3D dislocation dynamics simulations to be integrated and used for further analysis like, e. g. principal component analysis or cluster analysis, leading to improved knowledge on material be- havior. Micoscopy Images (top left) courtesy of M. Motylenko und C. Wüstefeld ((HR)TEM), Stefan Martin (EBSD), TU Freiberg. Scanning electron microscopy image from Ref. [50]. Atom probe data courtesy of P. Felfer (FAU) and D. Gianola (UCSB). DDD image courtesy of D. Weygand (KIT). Bild 1: Schematische Darstellung der Vier Paradigmen wissenschaftlicher Untersuchungen. Tradi­tionell hat sich die Wissenschaft um die drei Paradigmen – Experimente, Theorie und Berechnungen – ent- wickelt. Der Einzug der Datenwissenschaft und -informatik eröffnet ein neues Gebiet, sodass z. B. Daten aus der Elektronenrückstreubeugung, aus kristallplastischen Finite-Elemente-Simulationen, aus Trans- missionselektronenmikroskopie und 3D-Versetzungsdynamik-Simulationen für weitere Analysen integriert und genutzt werden können, z. B. für Hauptkomponenten- oder Clusteranalysen, was zu einem besseren Verständnis hinsichtlich des Werkstoffverhaltens führt. Mikroskopische Aufnahmen (oben links) mit freund- licher Genehmigung von M. Motylenko und C. Wüstefeld ((HR)TEM), Stefan Martin (EBSD), TU Freiberg. Bild zur diskreten Versetzungsdynamik mit freundlicher Genehmigung von D. Weygand (KIT).

496 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

(and rightly so) asking: “What is digitaliza- wissenschaftlern gestellt wird: „Um was geht tion all about? What is in it for me? Where es bei der Digitalisierung? Welcher Nutzen are the current challenges? and where do I ergibt sich daraus für mich? Worin liegen die find information/tools/training for improved aktuellen Herausforderungen? Und wo gibt es data handling in my own research and that Informationen/Tools/Fortbildungen zur bes- of my group?” Although, perhaps seem- seren Datenverarbeitung für meine eigenen ingly selfish at the surface, these questions Forschungsprojekte und die meiner Arbeits- denote the central challenge in motivating gruppe?“ Obwohl diese Fragen oberflächlich individual researchers and small research betrachtet vielleicht egoistisch klingen mögen, groups towards the process of digitaliza- symbolisieren sie eine der wesentlichen He- tion, particularly since researchers have rausforderungen, nämlich die Motivierung only limited time and resources at their einzelner Forscher und kleiner Forschungs- disposal. gruppen, den Schritt hin zur Digitalisierung zu wagen, besonders vor dem Hintergrund, dass die Zeit und die Ressourcen, die ihnen zur Ver- fügung stehen, begrenzt sind. The aim of the current paper is to discuss Ziel der vorliegenden Arbeit ist es, die Be- the impact and advantages of digitaliza- deutung und Vorteile der Digitalisierung und tion and DSI, current challenges involved von DSI, aktuelle Herausforderungen bei in data acquisition, as well as management der Datenerhebung, sowie deren Manage- and sharing, in the context of characteriza- ment und Nutzung im Kontext von Charak- tion methods and simulations in MSE. We terisierungsmethoden und Simulationen auf propose possible solution strategies and dem Gebiet der Materialwissenschaft und discuss some of them based on a few ex- Werkstofftechnik zu diskutieren. Es werden amples. This paper is essentially directed mögliche Lösungsansätze vorgestellt, von towards the individual researcher and small denen einige anhand von Beispielen dis- research groups – both experiments and kutiert werden. Diese Arbeit richtet sich simulation oriented, keeping the questions speziell an einzelne Forscher und kleine mentioned previously in focus. Our goal is Forschungsgruppen – sowohl versuchs- als that by reading this paper, researchers not auch simulationsorientiert – und konzentriert only find answers to their questions, but are sich dabei auf die bereits erwähnten Fragen. also motivated to share their data/method- Ziel ist, dass das Lesen dieser Arbeit nicht ology/software etc., in order to increase our nur Antworten auf die Fragen der Forscher knowledge about materials. We note that liefert, sondern die Forscher auch motiviert, much of what is in this article is a result of ihre Daten/Methodik/Software, usw. zu teilen, discussions in the DGM Arbeitskreis on 3D um unser Wissen über Werkstoffe zu vertie- Data Science, and as a result, is very much fen. Es wird angemerkt, dass ein großer Teil tuned to the German/European context. der vorliegenden Arbeit auf den Ergebnissen However, the discussion and the message des DGM-Arbeitskreises „3D Data Science“ in the current article is, in general, relevant beruht und somit deutlich auf den deutschen/ to the global materials science community. europäischen Kontext abgestimmt ist. Die For more details on some of the points dis- Diskussion und Botschaft der vorliegenden cussed below, the reader is referred to the Arbeit ist allgemein dennoch von Bedeutung Strategy Paper of the DGM [27]. für die internationale Gemeinschaft der Werk- stoffwissenschaftler. Für weitere Details zu ei- nigen in dieser Arbeit diskutierten Punkte wird auf das DGM-Strategiepapier [27] verwiesen.

Pract. Metallogr. 55 (2018) 8 497 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

2. Why Digitalization and Digital 2. Warum Digitalisierung und digita- Transformation? ler Wandel? Digitization, i. e., the conversion of analog/ Es begann alles mit der digitalen Umwand- physical information into a digital represen- lung, d. h. der Umwandlung analoger/physika- tation, is where it all began. Digitalization is lischer Informationen in eine digitale Darstel- perhaps the logical next step, where busi- lung (engl. “digitization”). Digitalisierung (engl. nesses and processes are advanced into “Digitalization”) ist wohl der nächste logische the digital era by leveraging digitization and Schritt, durch den Unternehmen und Prozesse digital technologies for handling and ana- in das digitale Zeitalter geführt werden. Dies lyzing the digital form of data, and turning geschieht durch die Zunutzemachung digi- data into knowledge. Digital transformation taler Umwandlung und digitaler Technologien is the corresponding process of changing bei der Verarbeitung und Analyse von Daten, a specific field or community. While the die in digitaler Form vorliegen, und durch das academic research sector of MSE is, in Umwandeln von Daten in Wissen. Der Digitale some respect, still at the beginning of this Wandel beschreibt den entsprechenden Um- transformation, the commercial sector has wandlungsprozess innerhalb eines spezifi- indeed progressed further: Industry 4.0 has schen Gebiets oder einer Gemeinschaft. Wäh- embraced digitalization through increased rend der akademische Forschungssektor MSE automation and data exchange, particularly in mancherlei Hinsicht immer noch am Anfang for smart manufacturing. Altogether, digitali- dieses Wandels steht, ist der Handelssektor in zation has already led to ground-breaking der Tat schon weiter vorangekommen: Indus- innovation in many fields of engineering, no- trie 4.0 nimmt die Digitalisierung bereitwillig tably in e-mobility, telecommunication and an und macht sie sich mittels stärkerer Auto- the energy sectors, and presents a unique matisierung und Datenaustausch zu Nutze, opportunity for advanced materials devel- besonders im Bereich intelligenter Fertigungs- opment. verfahren. Insgesamt hat die Digitalisierung bereits bahnbrechende Innovationen in vielen ingenieurwissenschaftlichen Bereichen her- vorgebracht, vor allem in der E-Mobilität, Tele- kommunikation und im Energiebereich und stellt auch eine einzigartige Chance bei der Entwicklung moderner Werkstoffe dar. The main question that digitalization in ma- Die Kernfrage, die mit Hilfe der Digitalisierung terials science shall help to answer is the im Bereich der Werkstoffwissenschaften be- following: What is required – be it experi- antwortet werden soll, ist die folgende: Was mentally or computationally – to fully char- ist nötig – sei es experimentell oder rechner- acterize and understand the behavior of Ma- gestützt – um das Verhalten des Werkstoffs terial X? One might be tempted to answer X vollständig zu charakterisieren und zu ver- that we require an as-complete-as-possible stehen? Man könnte sich zu der Antwort ver- listing of data on the desired material. This leiten lassen, dass eine Auflistung von Daten includes (i) data, ranging from electronic zum gewünschten Werkstoff, die so vollständig properties, through atomic positions to de- wie möglich ist, erforderlich ist. Darunter fallen scriptions of microstructural features on dif- (i) Daten zu elektronischen Eigenschaften, zu ferent length scales, (ii) stress strain curves, Atompositionen bis hin zu Beschreibungen von effective material properties, etc., and (iii) a Gefügeeigenschaften auf verschiedenen Län- detailed description on how the said data genskalen, (ii) Spannungs-Dehnungs-Kurven,

498 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

was obtained. While this might seem the effektive Materialeigenschaften, etc. und (iii) utopian goal of digital transformation from eine detaillierte Beschreibung, wie die jewei- the point of view of a computer scientist, ligen Daten gesammelt wurden. Auch wenn utilizing our existing knowledge and expe- dies für einen Informatiker das utopische Ziel rience as materials scientists will help us des digitalen Wandels zu sein scheint, hilft intelligently choose only the data which is uns Werkstoffwissenschaftlern das bereits really needed, thus reducing redundancies. vorhandene Wissen und unsere Erfahrung Nonetheless, the materials scientists of the bei der intelligenten Auswahl von genau den future would be unburdened from mundane Daten, die wirklich ausschlaggebend sind, wo- tasks of cataloging and managing data, durch Redundanzen verringert werden. Trotz since these would be automated, allowing alledem würde der Werkstoffwissenschaftler one to fully delve into developing and imple- der Zukunft von der stumpfsinnigen Aufgabe menting improved methods for data acqui- befreit sein, Daten zu katalogisieren und zu sition and analysis, together with develop- verwalten – dies geschieht automatisiert – und ing advanced for handling and könnte sich damit vollständig der Entwick- analysis, resulting in better interpretation of lung und dem Einsatz verbesserter Verfahren material behavior and advanced theories. für die Datenerhebung und -analyse widmen sowie der Entwicklung erweiterter Algorithmen für Verarbeitung und Analyse, woraus sich eine bessere Interpretation des Werkstoffverhaltens und weiterentwickelte Theorien ergeben.

3. What is in it for me as a Materials 3. Welcher Nutzen ergibt sich daraus Researcher? für mich als Werkstoffwissen- schaftler? A key factor that drives our everyday re- Ein Schlüsselfaktor, der die tagtägliche For- search is the availability of data, through schung vorantreibt, ist die Verfügbarkeit von which we derive important insights into ma- Daten, aus denen sich wichtige Einblicke in terial behavior. Generating such data, either das Werkstoffverhalten ableiten lassen. Das from experiments or simulations, requires Generieren von Daten, entweder auf Grund- the knowledge of methodologies, equip- lage von Experimenten oder Simulationen, ment and tools. For instance, generating erfordert die Kenntnis von Methoden, Gerät- EBSD data requires the user to not only have schaften und Tools. Z.B. ist es für die Erhe- an understanding of diffraction, but also bung von EBSD-Daten erforderlich, dass der know how the specimens under considera- Nutzer nicht nur das Phänomen der Beugung tion were prepared, how the specimen is ori- versteht, sondern neben weiteren wichtigen ented during measurement, the equipment Informationen bzgl. der eigentlichen Durch- used, the lighting conditions and indexing führung auch weiß, wie die entsprechenden rate used, etc., among other important in- Proben vorbereitet wurden, wie die Probe formation about the actual procedure itself. während der Messung orientiert sein muss, In the world of atomistic simulations, the welche Ausrüstung verwendet wird, welche scientist needs to know exact details on the Lichtverhältnisse und Indizierungsrate erfor- interatomic potential used, the code used derlich sind, etc. In der Welt atomistischer for simulations, the details on the numeri- Simulationen benötigt der Wissenschaftler cal toolbox (e. g. coupling constants, time genaue Angaben zum verwendeten intera- increment, etc.), steps for generating the at- tomaren Potenzial, zum verwendeten Code

Pract. Metallogr. 55 (2018) 8 499 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

omistic structure etc. Such key information des Simulationsprogramms, zu den digita- or meta data is crucial for reproducing the len Werkzeugen (z. B. Kopplungskonstanten, results. Zeitschrittweite, etc.) und zu den einzelnen Schritten bei der Erzeugung atomistischer Strukturen, etc. Solche Schlüsselinforma­ tionen oder Metadaten sind entscheidend für das Reproduzieren von Ergebnissen. Within a digitalized work flow, such meta Beim digitalen Workflow wären solche Me- data, together with information about the tadaten sowie Informationen zur Datenverar- data processing, would be part of the pub- beitung Teil der Publikation selbst, sodass ein lication itself, making reproduction of scien- Reproduzieren wissenschaftlicher Ergebnisse tific results much easier or possible in the deutlich vereinfacht bzw. erst ermöglicht wird. first place. Digitalization can hence result in Die Digitalisierung kann somit dazu führen, research data becoming more accessible dass Forschungsdaten besser zugänglich and usable [28, 29]. und nutzbar werden [28, 29]. Furthermore, the knowledge and availability Darüber hinaus würde die Kenntnis und Ver- of various tool sets would ease the fügbarkeit verschiedenster Software-Werk- curve of researchers. As mentioned earlier, zeuge die Lernkurve von Forschern abfla- DSI also opens up further possibilities in chen. Wie bereits zuvor erwähnt, werden terms of new methods and techniques to durch DSI auch weitere Möglichkeiten im analyze material behavior; for the contem- Hinblick auf neue Verfahren und Techniken porary materials scientist this is of particular zur Analyse des Werkstoffverhaltens eröff- interest, since these methods are invariant net; für den Werkstoffwissenschaftler von to the process used – experiments or com- heute ist dies von besonderem Interesse, putations – to acquire the dataset, allowing da diese Methoden für den Prozess, der zur one to obtain deeper insights into the pro- Gewinnung der Datensätze – ob durch expe- cessing-structure-property-performance rimentelle Untersuchung oder Berechnung relationship for a material. – angewandt wird, gleich sind, wodurch ein tieferes Verständnis des Zusammenhangs zwischen Bearbeitung, Gefüge, Eigenschaf- ten und Leistungsfähigkeit eines Werkstoffs ermöglicht wird.

4. Current Challenges 4. Aktuelle Herausforderungen The path of digital transformation in MSE Um den Digitalen Wandel im Bereich MSE ein- requires the acquisition, management, zuleiten, ist die Erhebung, das Management, analysis and dissemination of data. In par- die Analyse und Veröffentlichung von Daten ticular, we note that the acquisition and erforderlich. Besonders sei hier angemerkt, subsequent processing of experimental dass die Erhebung und anschließende Verar- data needs to be performed digitally, and beitung von aus Experimenten gewonnenen efforts must be taken to increase the syn- Daten digital erfolgen muss und Anstrengun- ergy between experiments and simulations. gen unternommen werden müssen, um ein A number of challenges exist on this path besseres Zusammenwirken von Experimen- towards digitalization (see, e. g., [25, 26]). ten und Simulationen zu erreichen. Es gibt These challenges are generally listed as einige Herausforderungen, die im Hinblick

500 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

The Four Vs – Volume, Variety, Veracity auf den Digitalen Wandel zu bewältigen sind and Velocity. Although they are generally (s. z. B. [25, 26]). Diese Herausforderungen discussed vis-à-vis Big Data, these chal- werden gemeinhin als die „Vier Vs“ bezeich- lenges are present for any data itself. net – Volume (Menge), Varietey (Vielfältigkeit), Veracity (Vertrauenswürdigkeit) und Velocity (Geschwindigkeit). Obwohl diese normaler- weise vor dem Hintergrund von Big Data dis- kutiert werden, gelten diese Herausforderun- gen für jede Art von Daten. Volume: In recent years, improved im- Volume: In den vergangenen Jahren wurden aging technologies and high throughput durch verbesserte bildgebende Verfahren, experiments, together with increased Hoch-Durchsatz-Untersuchungen sowie computing power and the availability of durch verbesserte Rechenleistung und die high performance computing resources Verfügbarkeit von Hochleistungs-Datenver- has resulted in large volumes of data from arbeitungsressourcen große Datenmengen both experiments and simulations that are aus Experimenten und Simulationen ge- amenable to Big Data approaches. The neriert, welche sich für Big-Data-Ansätze size of data is in the range from a few tera- eignen. Die Größe der Daten liegt im Bereich bytes to few hundreds of terabytes, or even von wenigen hundert Terabyte bis hin zu Pe- petabytes. This is very much in contrast to tabytes. Dies steht im deutlichen Gegensatz the situation just a couple of decades ago, zur Situation noch vor einigen Jahrzehnten, where materials science and engineering als sich die Materialwissenschaft und Werk- suffered from a lack of data, rather than stofftechnik nicht etwa großen Datenmengen, from big data. The challenge of “Big”ness sondern einem Mangel an Daten gegenüber of this data is not only in handling such sahen. Die Herausforderung in Bezug auf large volumes of data which require signifi- die Menge dieser Daten liegt nicht nur in der cantly improved infrastructure, including Verarbeitung solch großer Datenmengen, storage space and network bandwidth, die eine deutlich verbesserte Infrastruktur, but also in the availability of tool sets to darunter Speicherplatz und Netzwerkband- analyze such data. Financing such infra- breite, erfordern, sondern auch in der Verfüg- structure can easily be beyond the capa- barkeit von Tools zur Analyse solcher Daten. bility of a typical research group; long term Die Finanzierung einer solchen Infrastruktur storage of data is incompatible with short- kann leicht die Möglichkeiten einer typischen term project based funding of most fund- Forschungsgruppe übersteigen; die langfris- ing agencies. Universities, on the other tige Archivierung von Daten lässt sich nicht hand, point out to the project-specific na- mit der kurzfristigen projektbasierten Förde- ture of the generated data and expect re- rung vieler Trägereinrichtungen vereinbaren. searchers to obtain third party funding for Andererseits weisen Universitäten auf den the same. Even if data is made available projektspezifischen Charakter der erzeugten via third party resources, analyzing them Daten hin und erwarten von Forschern, dass requires the knowledge of sophisticated diese dafür Fördermittel von Dritten beschaf- methods and tools. The fields of life sci- fen. Selbst wenn Daten durch Drittmittel be- ences, astronomy, or particle are reitgestellt werden, erfordert deren Analyse often quoted as leading examples of DSI; das Wissen um ausgefeilte Methoden und in addition to developing their tools and Tools. Die Bereiche Biowissenschaften, As- software they have been able to achieve tronomie oder Teilchenphysik werden oft als this success by imparting training. To date, führende Beispiele für DSI genannt; neben

Pract. Metallogr. 55 (2018) 8 501 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

efficient and effective working with large der Entwicklung ihrer eigenen Tools und datasets is still not the common practice Software konnten sie diesen Erfolg durch in the MSE community. entsprechende Fortbildungen verbuchen. Bislang ist effizientes und effektives Arbeiten mit großen Datenmengen immer noch nicht die allgemeine Praxis innerhalb der MSE- Gemeinschaft. Variety: Variety refers to the heterogene- Variety: Variety bezieht sich auf den hetero- ous nature of data, that is primarily due genen Charakter von Daten, welcher sich haupt- to the wide variety of used methods and sächlich durch die Vielzahl der angewandten techniques. The reason is two-fold: Many Verfahren und Techniken ergibt. Der zweifache phenomena in materials are inherently Grund liegt hierin: Viele Phänomene, die bei multiscale and therefore require descrip- Werkstoffen beobachtet werden, sind grund- tions on many, possibly interlinked length sätzlich skalenübergreifend und erfordern somit and time scales. An example is plasticity, Beschreibungen auf vielen, möglicherweise ver- which is governed by dislocations, which knüpften Längen- und Zeitskalen. Ein Beispiel in turn consist of displaced atoms. On the ist die Plastizität, die auf Versetzungen beruhen, other end of the length scale, e. g., the welche wiederum aus versetzten Atomen be- macroscopic hardening behavior is an stehen. Am anderen Ende der Längenskala emergent property of the phenomena on liegt bspw. das makroskopische Verfestigungs- smaller scales. The second reason for the verhalten als auftretende Eigenschaft, bestimmt heterogeneous nature of data is the fact durch Phänomene auf kleineren Skalen. Der that many materials science problems are zweite Grund für den heterogenen Charakter of interdisciplinary nature and may require von Daten ist die Tatsache, dass viele Probleme the expertise of physicists, chemists, biol- innerhalb der Werkstoffwissenschaften interdis- ogists and engineers alike, resulting in the ziplinärer Natur sind und gegebenenfalls die Ex- usage of a wide variety of equipment and pertise sowohl von Physikern, Chemikern, Bio- tools. The field of with its roots logen als auch Ingenieuren erfordern, was die in nanoscience, and engineer- Nutzung einer Vielzahl von Geräten und Tools ing is a particularly instructive example for zur Folge hat. Das Feld der Tribologie, das seine this. Heterogeneity of datasets may not be Wurzeln in der Nanowissenschaft, Chemie und completely avoidable, particularly when Ingenieurwissenschaft hat, ist hierfür ein beson- using commercial software with propri- ders aufschlussreiches Beispiel. Die Heteroge- etary file formats. But even open source nität von Datensätzen kann nicht vollständig ver- simulation codes suffer from this problem. mieden werden, vor allem, wenn kommerzielle This makes it difficult to combine datasets Software mit firmeneigenen Dateiformaten ge- from different sources and perform analy- nutzt wird. Aber sogar Open-Source-Codes zu sis, or even use some data as input for numerischen Simulationen weisen dieses Pro- other methods as, e. g., needed in experi- blem auf. Dies erschwert die Kombination von mentally informed simulations or in multi- Datensätzen aus verschiedenen Quellen und scale approaches. die Durchführung von Analysen oder sogar die Nutzung bestimmter Daten als Input für andere Verfahren, wie es bspw. bei Simulationen, die auf experimentellen Untersuchungen beruhen, oder bei Multiskalen-Ansätzen erforderlich ist.

502 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

Veracity: Veracity refers to the “true- Veracity: Veracity bezieht sich auf die “Wahr- ness” or correctness of data, which can heit” oder Richtigkeit von Daten, die nur dann be guaranteed only if every dataset is garantiert werden kann, wenn zu jedem Daten- accompanied by a detailed documenta- satz eine genaue Dokumentation vorliegt, die tion of not only the data itself, but also on sich nicht nur auf die Daten selbst bezieht, the work flow used to generate or acquire sondern auch den Workflow beschreibt, durch the data. Furthermore, details on checks den die Daten erzeugt und gewonnen wurden. performed to ensure the quality of the Außerdem sind Angaben zu den Kontrollen, die dataset is also desirable. Such practices zur Sicherstellung der Qualität des Datensatzes are not yet standardized across the MSE durchgeführt wurden, wünschenswert. Solche community. A simple illustration of such a Praktiken sind innerhalb der MSE-Gemein- workflow, that involves generation of atom schaft noch nicht vereinheitlicht. Eine einfache probe tomography informed atomistic Darstellung eines solchen Workflows, der die samples (cf. Ref. [11]) is shown in Fig. 2. Erzeugung von atomistischen Proben mit Hilfe This workflow involves open-source soft- tomographischer Atomsonden (vgl. [11]) be- ware (Blender [48], NanoSCULPT [44]) as inhaltet, ist in Bild 2 zu sehen. Dieser Workflow well as custom-built scripts and programs beinhaltet Open-Source-Software (Blender in multiple programming languages viz. [48], NanoSCULPT [44]) sowie kundenspe- Python, R and Fortran. Rarely is the work zifische Scripts und Programme in mehreren flow documented in terms of the exact se- Programmiersprachen, nämlich Python, R und quence of tools/scripts/software used, and Fortran. Selten wird der Workflow im Hinblick auf even rarely in terms of the exact version, die genaue Sequenz der angewandten Tools/ making the replication of data almost im- Scripts/Software dokumentiert, sogar selten im possible. A related problem is that of avail- Hinblick auf die genaue Version, was das Re- ability – even in cases where the work flow produzieren von Daten fast unmöglich macht. is documented, reviewing a dataset (e. g., Ein damit zusammenhängendes Problem in a journal peer review process) may fail ist das der Verfügbarkeit – sogar in Fällen, in due to lack of software licenses, and as denen der Arbeitsablauf dokumentiert ist, kann a result, the evaluation process can only die Überprüfung eines Datensatzes (z. B. durch submit a plausibility of the data. The lack ein Peer-Review-Verfahren für Veröffentlichun- of uniform standards is also visible in many gen in Fachzeitschriften) aufgrund fehlender further aspects: for instance, it is unclear Software-Lizenzen fehlschlagen und so kann if, when and where raw data ought to be nur eine Bewertung hinsichtlich der Plausibilität stored, since such storage is rarely regard- der Daten erfolgen. Das Fehlen einheitlicher ed as necessary. Accepted practice is to Standards spiegelt sich auch in vielen weiteren draw scientific insights from the raw data Gesichtspunkten wider: zum Beispiel ist unklar, and store only the meta data information. ob, wann und wo Primärdaten gespeichert Furthermore, raw data is usually stored werden sollten, da deren Speicherung selten locally on the machine where the experi- als notwendig erachtet wird. Eine gängige ment was performed or the simulation was Praxis ist, dass wissenschaftliche Erkenntnis- run and rarely backed-up. The raw data is se aus Primärdaten gewonnen werden und nur often discarded shortly after the findings die Metainformationen gespeichert werden. are published as an article in a journal. Außerdem werden Primärdaten normalerweise Evaluating the published dataset, however, nur lokal auf dem Gerät abgespeichert, mit dem would require the original raw data, which das Experiment durchgeführt wurde oder auf is either unavailable, or requires significant dem die Simulation ausgeführt wurde und das effort to be reproduced. These problems selten unter Sicherung der Daten. Primärdaten

Pract. Metallogr. 55 (2018) 8 503 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

AtomProbeDataParse.py: APT_IonConcentrations.f90: APT data Parse APT data and write out Compute concentration profiles of Ni, (binary) / separate files for each ion in IMD Al using voxelized discretization of the APT-Daten format / Analysiere APT-Daten domain / Berechne Konzentrations- (binär) und gib für jedes Ion separate profile von Ni, Al durch Diskretisierung Dateien im Format IMD aus des in Voxel eingeteilten Gebiets

*.YY.IMD

ConslsoSurf.R: Construct Isodensity surfaces of Al, Re / Erstelle Oberflächen gleicher Dichte von Al, Re

*.OBJ

Blender Cut out cuboidal box of interest from isosurface definition of Re / Schneide ausgewähltes kubisches Feld aus Isoflächen-Definition von Re aus

*.OBJ varyAtomicConcentration.f90: Replace atoms to mimic the voxelized concentration profile of Ni, Al in the NanoSCULPT original APT data / Ersetze Atome zur Fill phase with fcc Ni γ Nachahmung des in Voxel eingeteilten Fill γ’ phase with L12 Ni Al / 3 Konzentrationsprofils von Ni, Al in den Fülle -Phase mit Ni (kfz) γ originalen APT-Daten Fülle γ’-Phase mit L12 Ni3Al

*.IMD: *.IMD: APT informed atomistic APT informed non-stochio­ sample / metric atomistic sample / APT-basierte APT-basierte atomistische nicht-stöchiometrische Probe atomistische Probe

Fig 2: A workflow diagram illustrating the generation of atom probe tomography (APT) informed stoi- chiometric and non-stoichiometric atomistic samples in Ref. [11]. Files are indicated in ellipses, and the processing method in a rectangular box. Only the original APT data obtained from experiments is in a binary file format. The workflow involves open source software (denoted in green) and custom built scripts/programs in different programming languages – Python (*.py), R (*.R), Fortran (*.f90). Bild 2: Workflow-Diagramm zur Erzeugung von stöchiometrischen und nicht-stöchiometrischen ato- mistischen Proben mit Hilfe tomographischer Atomsonden (APT, Atom Probe Tomography) aus Ref. [11]. Dateien werden durch Ellipsen angegeben, die Bearbeitungsverfahren werden durch Rechtecke ange- zeigt. Nur die ursprünglichen APT-Daten aus experimentellen Untersuchungen liegen im Binärdateifor- mat vor. Der Workflow beinhaltet Open-Source-Software (grün markiert) und kundenspezifische Scripts/ Programme in verschiedenen Programmiersprachen – Python (*.py), R (*.R), Fortran (*.f90).

504 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

are particularly aggravated when a re- werden oft kurz nach der Veröffentlichung der searcher leaves the group. Ergebnisse in einem Artikel oder einer Fach- zeitschrift verworfen. Eine Bewertung des ver- öffentlichten Datensatzes würde allerdings die originalen Primärdaten erfordern, die entweder nicht verfügbar sind oder die nur mit großem Arbeitsaufwand reproduziert werden können. Diese Probleme werden besonders dann ver- stärkt, wenn ein Forscher die Gruppe verlässt. Velocity: Velocity refers to the rate with Velocity: Velocity bezieht sich auf die Ge- which data is produced. The bottleneck is, in schwindigkeit, mit der Daten erzeugt werden. particular, visible in real time data analysis, Engpässe werden vor allem deutlich bei Echt- e. g., from a digital camera. While handling zeit-Datenanalysen, z. B. bei Digitalkameras. large data streams is clearly a formidable Die Handhabung großer Datenströme stellt task, in many current MSE applications this zweifelsohne eine schwierige Aufgabe dar. Bei mainly reduces to handling large amounts vielen Anwendungen im Bereich MSE geht es of data. Nonetheless, it is well possible that meist nur um die Handhabung großer Daten- the bandwidth, or the connection and link- mengen. Dennoch ist es gut möglich, dass die age of data streams from, e. g., different Bandbreite oder Verbindung und Verknüpfung microscopy methods will require tailored von Datenströmen bspw. aus verschiedenen strategies as well. Mikroskopieverfahren ebenfalls maßge- schneiderte Strategien erfordern. Other challenges: Besides the aforemen- Weitere Herausforderungen: Neben den tioned four Vs, there is at least one addition- bereits erwähnten „Vier Vs” gibt es mindestens al, major obstacle for digital transformation ein weiteres großes Hindernis für den Digitalen and DSI in the MSE community: The lack Wandel und DSI innerhalb der MSE-Gemein- of a strong data sharing culture. A con- schaft: Das Fehlen einer ausgeprägten Kultur sequence of current established scientific des Datenaustauschs. Eine Folge der aktuell practices is that only the scientific insights, etablierten wissenschaftlichen Praktiken liegt and not the acquired data itself, is deemed darin, dass lediglich die wissenschaftlichen relevant for a publishable study. The ca- Erkenntnisse und nicht die gewonnenen reer path of the scientist is influenced by Daten selbst als relevant für eine publizierbare the number and quality of publications, Studie angesehen werden. Die berufliche Kar- together with associated statistics such as riere von Wissenschaftlern wird unter anderem citations and h-index. Since data itself can- durch die Anzahl und Qualität ihrer Veröffent- not be published or cited, there appears lichungen sowie dazugehörigen Statistiken, to be little incentive for research groups z. B. Quellangaben und dem h-Index, beein- to make their data available. Researchers flusst. Da Daten selbst nicht veröffentlicht oder appear to be even more cautious about angegeben werden können, scheint es für For- sharing the data with the wider community schungsgruppen wenig Anreiz zu geben, ihre due to lack of clear guidelines that clarify Daten zur Verfügung zu stellen. Forscher schei- how such data may be further used, and nen beim Datenaustausch mit einer größeren who is responsible for missing data and/ wissenschaftlichen Gemeinschaft sogar noch or misinterpretation and misrepresentation vorsichtiger zu sein, da es keine eindeutigen of shared data. It is also unclear if a mere Regeln gibt, die definieren, wie solche Daten citation to the original publication present- weiter genutzt werden können und wer ver-

Pract. Metallogr. 55 (2018) 8 505 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

ing the data would suffice (as dictated by antwortlich für fehlende Daten und/oder Fehl- current practice), or if the primary authors interpretationen und falsche Darstellungen need to be acknowledged as co-authors in ausgetauschter Daten ist. Ebenfalls ist nicht the new publication, and furthermore, how klar, ob eine einfache Nennung der ursprüng- such data is to be cited in secondary pub- lichen Publikation, in der die Daten vorgestellt lications. For instance, usage of datasets wurden, ausreichen würde (entsprechend der from material databases results in citations aktuellen Praxis) oder ob die Hauptautoren for the database, and not the original work als Co-Autoren der neuen Veröffentlichung to which the data is attributed. genannt werden müssen und wie diese Daten außerdem in Zweitveröffentlichungen angege- ben werden sollen. Zum Beispiel wird bei der Nutzung von Datensätzen aus Werkstoffdaten- banken die entsprechende Datenbank ange- geben und nicht die ursprüngliche Arbeit, der die Daten zugeschrieben werden.

5. Some Steps towards Digitaliza- 5. Einige Schritte hin zur Digitalisie- tion rung Digitalization has different facets and hence Die Digitalisierung hat verschiedene Facetten requires a number of different actions and und setzt somit voraus, dass verschiedene aspects to be taken into account. In the Maßnahmen und Gesichtspunkte berücksich- following, we present a choice of what we tigt werden. Im Folgenden wird eine Auswahl consider the most important ones. der von uns als am wichtigsten erachteten Punkte vorgestellt: 5.1 Data Formats: Standardization and 5.1 Dateiformate: Standardisierung und Interfaces Schnittstellen To tackle the problem of variety – a bot- Um das Problem der Vielfältigkeit anzugehen – tleneck for efficient data exchange be- ein Hindernis im Hinblick auf effizienten Daten- tween methods and groups – there are austausch zwischen Verfahren und Gruppen – two fundamentally different approaches: ergeben sich zwei gänzlich verschiedene (i) develop a unifying standard for file for- Ansätze: (i) die Entwicklung eines vereinheit- mats and/or interfaces that is applicable lichenden Standards für Dateiformate und/ and well-accepted within a specific field of oder Schnittstellen, der in einem bestimmten work (e. g., raw data in X-ray tomography Tätigkeitsfeld anwendbar und allgemein aner- or finite element analysis); (ii) accept the kannt ist (z. B. Primärdaten bei der Röntgen- heterogeneous nature of data, and develop tomographie oder Finite-Elemente-Methode); interfaces and converters – with sufficient (ii) die Akzeptanz, dass Daten einen hetero- documentation – to ensure compatibility genen Charakter haben und die Entwicklung between different file and/or data formats. von Schnittstellen und Konvertern – mit aus- We believe that in order to gain widespread reichender Dokumentation – um die Kompati- acceptance, a healthy mix of the two strate- bilität zwischen verschiedenen Datei- oder Da- gies is required. Indeed, the two strategies tenformaten sicherzustellen. Wir glauben, dass can be seen as complementary and syner- eine gesunde Mischung beider Strategien er- getic [30]. The NOMAD project [31] is one forderlich ist, um breite Akzeptanz zu erlangen. such example; it is a code-independent Beide Strategien können in der Tat als komple-

506 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

database which stores data from electron mentär und synergetisch angesehen werden structure calculations from a wide variety [30]. Das NOMAD-Projekt [31] ist ein solches of codes, and converts them to a format Beispiel; es handelt sich um eine Code-un- that allows for analytics to be directly per- abhängige Datenbank, in der Daten aus Be- formed on the database. An example on rechnungen zur Elektronenstruktur ausgehend a different context is the HDF5 format [32] von einer Vielzahl von Codes gespeichert und which provides a standard for storing pos- in ein Format umgewandelt werden, welches sibly compressed data and which at the Analysen direkt in der Datenbank ermöglicht. same time provides an XML-like interface Ein Beispiel aus einem anderen Kontext ist das for storing meta data along with the data Datenformat HDF5 [32], das ein Standard für such that the data structure itself can act die Speicherung von eventuell komprimierten as documentation. HDF5 is platform inde- Daten ist und das gleichzeitig eine XML-ähn- pendent and works on Windows, Linux or liche Schnittstelle zur Speicherung von Daten Mac. Furthermore, wrappers for the most und Metadaten bietet, sodass die Datenstruktur important programming languages includ- selbst als Dokumentation dienen kann. HDF5 ing Python and Matlab exist. In Fig. 3 we ist plattformunabhängig und läuft auf Windows, show a mock dataset containing force- Linux oder Mac. Außerdem gibt es Wrapper für displacement data along with an image die wichtigsten Programmiersprachen, darun- and meta data. Creating this file requires ter auch Python und Matlab. Bild 3 zeigt einen one line of Matlab code for each attribute Pseudo-Datensatz, der Kraft-Weg-Daten zu- (meta data entry) or two lines of code for sammen mit einem Bild und Metadaten enthält. any dataset. Das Erstellen dieser Datei erfordert eine Zeile Matlab-Code für jedes Attribut (Metadaten-Ein- trag) oder zwei Codezeilen für jeden Datensatz. Besides the above, rather technical as- Neben den oben genannten, recht techni- pects, there is also an aspect of “variety” schen Gesichtspunkten gibt es außerdem den that is directly related to the underlying Aspekt der Vielfältigkeit („Variety”), der in di- physics: when combining or comparing rektem Zusammenhang mit der zugrundelie- different experimental and/or simulation genden Physik steht: bei der Kombination oder approaches, each of them often concen- dem Vergleich verschiedener experimenteller

Fig 3: Screenshot of the con- tent of a HDF5 file, which is able to store heterogeneous data, in- cluding even images. Addition- ally, meta data, like e. g., creation date, sample ID, temperature etc. can be stored as well, and is shown for the group “indent1” at the bottom of the window. Bild 3: Screenshot des Inhalts einer HDF5-Datei, die heterogene Daten speichern kann, u. a. auch Bilder. Zudem können Metadaten wie z. B. Erstellungsdatum, Pro- ben-ID, Temperatur, etc. gespei- chert werden, zu sehen unten im Fenster für die Gruppe “indent1”.

Pract. Metallogr. 55 (2018) 8 507 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

trates on different phenomenon or length/ und/oder Simulationsansätze konzentriert sich time scale. In these cases, physics-based jeder Ansatz oft auf verschiedene Phänomene conversions of different data types have oder Längen-/Zeitskalen. In diesen Fällen muss to be sought [33, 34], which may involve eine auf der Physik basierende Umwandlung averaging or filtering of data, e. g., when verschiedener Datentypen angestrebt werden going from high-resolution data to coarse [33, 34], was mit einer Mittelung oder Filterung grained descriptions. Knowledge of the von Daten verbunden sein kann, z. B. wenn von underlying materials scientific problem is, hochauflösenden Daten in grobkörnige Be- in such cases, very important for deciding schreibungen übergegangen wird. In solchen which details need to be included. Fällen ist die Kenntnis des zugrundeliegenden werkstoffwissenschaftlichen Problems für die Entscheidung, welche Angaben einzubezie- hen sind, überaus wichtig. 5.2 Integrated Workflow Tools 5.2 Integrierte Workflow-Tools In order to ensure faithful replication of every Um eine originalgetreue Reproduktion eines step along the data processing chain, it is jeden Schritts der Datenverarbeitungskette si- necessary to use integrated workflow tools, cherzustellen, ist die Nutzung integrierter Work- that can create an automated protocol of flow-Tools erforderlich, die ein automatisches the individual steps and software used in Protokoll der einzelnen Schritte und der in der the chain. Such a tool is essentially a plat- Kette verwendeten Software erstellen können. form with a working environment that has Ein solches Tool ist im Grunde eine Plattform access to tools and software in use by the mit einer Arbeitsumgebung, die Zugriff auf researcher. As a result, a multitude of open Tools und Software hat, die vom Forscher ver- source, commercial and self-developed wendet werden. Folglich können eine Vielzahl software and scripts can be used, and an Open-Source-, kommerzieller oder selbst- the workflow is automatically registered in entwickelter Software und Scripts verwendet the platform. The automation removes the werden und der Workflow wird automatisch auf onus from the user, who may sometimes der Plattform erfasst. Dank der Automatisie- forget to document the workflow if done rung entfällt diese Pflicht für den Nutzer, der bei manually. der manuellen Erfassung bisweilen vergessen könnte, den Workflow zu dokumentieren. Such a procedure can be successfully im- Ein solches Verfahren kann erfolgreich mit Hilfe plemented as pipelines as is to be found in von Pipelines implementiert werden, wie beim tools like the synthetic microstructure gen- DREAM3D-Tool zur Erzeugung synthetischer eration tool DREAM3D [35], or via process- Gefüge [35] oder durch Verlaufsgraphen wie ing graphs as is the case of LabView [36]. bei LabView [36]. Andere Tools wie Taverna Other tools like Taverna [37], or Drake [38], [37] oder Drake [38] sind allgemeiner und are more generic, and allow for the overall ermöglichen die Kapselung des gesamten workflow to be encapsulated, and further- Workflows und zudem die Sicherung mittels more, backed up via a cloud storage. cloud-basierter Speicherung. 5.3 Training on Best Practices for Soft- 5.3 Weiterbildung in bewährten Vorgehens- ware Development weisen bei der Software-Entwicklung Contemporary scientific software, particu- Aktuelle wissenschaftliche Software, beson- larly free and open-source software dis- ders kostenlose oder Open-Source-Software plays a wide spectrum of documentation zeigt ein breites Spektrum an Dokumentation

508 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

and adherence to standards. One may und Einhaltung von Standards. Solche Soft- broadly classify such software on three dif- wares lassen sich grob in 3 verschiedene ferent tiers: Ebenen einteilen: • Tier 1 contains software that are dis- • Ebene 1 beinhaltet Software, die von en- tributed by dedicated groups/institu- gagierten Gruppen/Institutionen vertrie- tions, and is well maintained with regu- ben wird und durch regelmäßige Patches, lar patches, bug fixes and updates of Bugfixes und Patch-Updates zuverlässig patches. Examples of such software in- gepflegt wird. Beispiele hierfür sind u. a. clude LAMMPS (Atomistic simulations), LAMMPS (Atomistische Simulationen), DREAM3D (Synthetic microstructure DREAM3D (Erzeugung synthetischer generation) [35], Deal.II (finite element Gefüge) [35] und Deal.II (Finite-Elemente- toolbox) [40]. Such packages usually Toolbox) [40]. Solche Pakete beinhalten für contain extensive documentation, and gewöhnlich eine umfangreiche Dokumen- have a support system either via forums tation und System-Support entweder über or support groups. Foren oder Support-Gruppen. • Tier 2 contains software that is usually • Ebene 2 beinhaltet Software, die für ge- maintained by individuals and small re- wöhnlich von Einzelpersonen oder kleinen search groups, that are made available to Forschungsgruppen gepflegt und einer the wider community, albeit with varying der größeren Gemeinschaft zur Verfügung levels of documentation. Support is usu- gestellt wird, wenn auch mit unterschiedli- ally provided by the development team chen Dokumentationsstufen. Der Support itself, and rarely has a support group. Ex- erfolgt normalerweise durch das Entwick- amples include ParaDiS [41], MicroME- lerteam selbst, in seltenen Fällen gibt es GAS [42], DAMASK [43], NanoSCULPT Support-Gruppen. Beispiele sind u. a. [44], FE2AT [45], etc. ParaDiS [41], MicroMEGAS [42], DAMASK [43], NanoSCULPT [44], FE2AT [45], etc. • Tier 3 contains task-specific scripts and • Ebene 3 beinhaltet aufgabenspezifische tools, like parsers and job schedulers, or Scripts und Tools wie Parser und Scheduler even software written for larger functions oder sogar Software, die für umfangreiche- and purposes, including simulations and re Funktionen und Zwecke programmiert analysis. These are usually developed by wurde, darunter Simulationen und Analysen. individual scientists, who in many cases Diese werden für gewöhnlich von einzelnen have little or no training in formal require- Wissenschaftlern entwickelt, die oftmals ment analysis, software development wenig oder gar keine praktische Ausbildung and management, and quality assur- im Hinblick auf formelle Bedarfsanalyse, ance. Such tools, for instance, are rarely Software-Entwicklung und -management archived properly with version numbers, sowie Qualitätskontrolle haben. Z.B. werden which is extremely important for replicat- solche Tools selten korrekt unter Angabe ing a dataset at a later stage. der Version archiviert, was überaus wichtig für die Reproduktion eines Datensatzes zu einem späteren Zeitpunkt ist. To ensure consistent standards, but easy Um sicherzustellen, dass einheitliche Stan- software development, where the quality dards existieren und die Software-Entwick- procedures do not overwhelm a research- lung einfach gehalten wird, um einen Forscher er, we recommend the following quality nicht durch Qualitätsverfahren zu überfordern,

Pract. Metallogr. 55 (2018) 8 509 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

levels for version control and documenta- empfehlen wird die folgenden Qualitätsstufen tion: in Bezug auf Versionsverwaltung und Doku- mentation: • Level 0: A bare minimum level of version • Stufe 0: Absolutes Mindestmaß an Versi- control; every script/program where a onsverwaltung; jedes Script/Programm, piece of code changes the functionality is bei dem ein Stück Code die Funktionalität stored as a different file, for instance, with ändert, wird als eine andere Datei abgespei- a “_v#” indicating the version number ap- chert, z. B. mit einem „_v#”, das die Version pended to the name (e. g. my_analysis_ angibt und an den Namen angehängt wird script_v07.m); On execution, the program (z. B. my_analysis_script_v07.m); Bei der shall provide the user with all necessary Ausführung stellt das Programm dem Nut- information for the current run; Docu- zer alle notwendigen Informationen für den mentation of functionality is provided in aktuellen Durchlauf zur Verfügung; Die Do- the code itself; User may be expected to kumentation der Funktionalität ist im Code read the source code in case of missing selbst enthalten; Vom Nutzer wird ggf. er- information. wartet, im Fall von fehlenden Informationen den Quellcode zu lesen. • Level 1: Version control via a reposi- • Stufe 1: Versionsverwaltung durch ein Re- tory – source code is stored in a central pository – der Quellcode wird in ein zentra- repository and managed via a version- les Repository gespeichert und durch ein ing system (git, mercurial, svn etc.). If Versionsverwaltungssystem (git, mercurial, compilation is required, an appropriate svn etc.) verwaltet. Falls eine Kompilierung “Makefile” for build tools such as CMake erforderlich ist, ist ein entsprechendes or Make, along with corresponding in- „Makefile” für Build-Tools wie CMake oder structions is also part of the repository. Make zusammen mit entsprechenden An- Detailed documentation is provided; weisungen ebenfalls Teil des Repository. hence source code screening is unnec- Eine detaillierte Dokumentation ist gege- essary. ben; somit ist eine Überprüfung des Quell- codes nicht erforderlich. • Level 2: Automated build server with- • Stufe 2: Automatisierte Server für fortlaufen- out/with packager – A central devel- de Integration, auch Buildserver genannt, opment environment is established to mit/ohne Packager – Eine zentrale Entwick- automate component and functionality lungsumgebung wird zur Automatisierung testing. Documentation is web-based von Komponenten- und Funktionstests ge- and can be independent of the build schaffen. Die Dokumentation ist internetba- server; automated tools extract docu- siert und kann unabhängig vom Buildserver mentation from the code. The packager sein; Automatisierte Tools extrahieren die makes the process easier for the user Dokumentation aus dem Code. Der Packa- by packing the entire program into a ger erleichtert den Prozess für den Benut- single file; “installation” can be per- zer, indem das gesamte Programm in eine formed by a single click. Documenta- einzige Datei gepackt wird; Die „Installation“ tion is self-contained in the program kann durch einen einzigen Klick ausgeführt itself. Systems/Provide such as GitHuB werden. Die Dokumentation ist eigenstän- [46] or GitLab [47] come with a number dig und unabhängig im Programm selbst. of tools all of which can be connected to Systeme/Dienste wie GitHuB [46] oder Git- the central repository and are addition- Lab [47] sind erhältlich mit einer Reihe von

510 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

ally able to perform unit, functionality Tools, die alle mit dem zentralen Repository and integration tests. verbunden werden können und zusätzlich in der Lage sind, Komponenten-, Funk- tions- und Integrationstests durchzuführen. The implementation of such standards, Die Einführung solcher Standards, besonders particularly levels 0 and 1, requires mini- der Stufen 0 und 1, erfordert ein Minimum an mal effort, but often fails due to lack of time Aufwand, scheitert jedoch oft an fehlender or motivation. Training on the available Zeit oder Motivation. Fortbildungen zu ver- tools would help make the development fügbaren Tools würden dazu beitragen, den workflow easier. Therefore, it would be ex- Entwicklungs-Workflow zu erleichtern. Aus tremely useful to include a minimal course diesem Grund wäre es außerordentlich nütz- program in materials science curricula that lich, ein Mindestmaß an Lehrveranstaltungen provides information and training on avail- in die Lehrpläne der Werkstoffwissenschaften able tools and best practices, and useful- aufzunehmen, in denen Informationen und ness of the same. Übungen zu den verfügbaren Tools sowie be- währten Vorgehensweisen angeboten werden und deren Nützlichkeit vermittelt wird.

6. Conclusion 6. Schlussfolgerung Digitalization in materials science and en- Digitalisierung im Bereich der Materialwissen- gineering shows great promise for bring- schaft und Werkstofftechnik ist ein vielverspre- ing experiment and simulation through a chendes Unterfangen, durch das experimentel- data-related approach closer together. At le Untersuchungen und Simulationen einander the same time, with every step towards a durch einen datenbasierten Ansatz näher ge- digitalization the amount of available data bracht werden. Gleichzeitig wird mit jedem increases. While data handling is certainly Schritt hin zur Digitalisierung die Menge der a challenge, we hope that the sheer num- verfügbaren Daten größer. Während die Daten- ber of new possibilities that are opening verarbeitung sicherlich eine Herausforderung up is tempting enough for a larger number darstellt, hoffen wir, dass allein die Zahl der sich of researchers and research groups to in- eröffnenden neuen Möglichkeiten für immer vest the initial time and effort in order to mehr Forscher und Forschungsgruppen Anreiz realize the full potential of these new ap- sind, die anfängliche Zeit und Mühe zu inves- proaches. Additionally, we have to include tieren, um das Potenzial dieser neuen Ansätze some of these aspects in the regular aca- voll auszuschöpfen. Zusätzlich dazu müssen ei- demic education of students in MSE too. nige dieser Gesichtspunkte auch in die reguläre Last but not least, this process also re- akademische Ausbildung von Studierenden im quires the availability of new funding pos- Bereich MSE einfließen. Zu guter Letzt verlangt sibilities since large data handling and Big dieser Prozess auch die Verfügbarkeit neuer Data strategies require storage, hardware Fördermöglichkeiten, da große Datenmengen and additional manpower. Nonetheless, und Big-Data-Strategien Speichermöglich- digitalization is a process that has already keiten, Hardware und zusätzliche Arbeitskraft begun, and implementing small measures erfordern. Dennoch ist die Digitalisierung ein even in scattered groups will contribute to Prozess, der längst begonnen hat und die a successful progression. Umsetzung kleiner Maßnahmen selbst in ver- einzelten Forschungsgruppen wird zu einer erfolgreichen Weiterentwicklung beitragen.

Pract. Metallogr. 55 (2018) 8 511 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

Acknowledgements Danksagungen The authors acknowledge funding from the Die Autoren bedanken sich für die Förderung European Research Council Starting Grant, durch den „Starting Grant“ des Europäischen “A Multiscale Dislocation Language for Forschungsrats (ERC) „A Multiscale Dis- Data-Driven Materials Science,” ERC Grant location Language for Data-Driven Materials Agreement No. 759419 MuDiLingo. We Science“, ERC Grant Agreement No. 759419 thank Mykhaylo Motylenko Christina Wüste- MuDiLingo. Wir danken Mykhaylo Motylenko, feld, and Stefan Martin (Institute of Materi- Christina Wüstefeld und Stefan Martin (Institut als Science, TU Bergakademie Freiberg) für Werkstoffwissenschaft, TU Bergakademie for providing us with microscopy images, Freiberg) für die zur Verfügung gestellten mi- Peter Felfer (FAU) and Dan Gianola (UCSB) kroskopischen Aufnahmen und Daniel Wey- for providing atom probe tomogrpahy data, gand für die Aufnahme zur diskreten Verset- and Daniel Weygand for providing us with zungsdynamik in Bild 1. Die Autoren danken the discrete dislocation dynamics image in außerdem Dominik Steinberger für die Auf- Fig. 1. The authors would also like to thank nahmen zu Multivariaten Analysemethode, Dominik Steinberger, for the images for Hauptkomponentenanalyse und Clusterana- multivariate analysis, principal component lyse in Bild 1. analysis and cluster analysis, in Fig. 1.

References / Literatur [1] Hey, T.; Tansley, S.; Tolle, K. (Eds.): Microsoft [8] Curtarolo, S.; Hart, G. L. W.; Nardelli, M. B.; Research, Redmond, Washington, 2009 Mingo, N.; Sanvito, S.; Levy, O.: Nature Materials [2] Sumpter, B. G.; Vasudevan, R. K.; Potok, T.; Ka- (2013), 12, 191 – 201 linin, S. V.: NPJ Computational Materials (2015), DOI: 10.1038/nmat3568 15008 [9] Greeley, J.; Jaramillo, T. F.; Bonde, J.; Chorken­ [3] Ramprasad, R.; Batra, R.; Pilania, G.; Mannodi- dorff, I.; Norskov, J. K.: Nature Materials (2006), 5, Kanakkithodi, A.; Kim, C.: NPJ Computational 909 – 913 Materials (2017) 3, 54 DOI: 10.1038/nmat1752 DOI: 10.1038/s41524-017-0056-5 [10] Kelly, T. F.; Larson, D. J.: Annual Review of Materials [4] Kalidindi, S. R.; De Graef, M.: Annual Reviews in Research (2012), 42, 1 – 31 Materials Research (2015) 45, 171 – 193 DOI: 10.1146/annurev-matsci-070511-155007 DOI: 10.1146/annurev-matsci-070214-020844 [11] Prakash, A.; Guénolé, J.; Wang, J.; Müller, J.; Spie- [5] Friedrich, H.; de Jongh, P. E.; Verkleij, A. J.; cker, E.; Mills, M. J.; Povstugar, I.; Choi, P.; Raabe, D.; de Jong, K. P.: Chemical Reviews (2009) 109, Bitzek, E.: Acta Materialia (2015) 92, 33 – 45 1613 – 1629 DOI: 10.1016/j.actamat.2015.03.050 DOI: 10.1021/cr800434t [12] Prakash, A.; Hummel, M.; Schmauder, S.; Bitzek, E.: [6] Belianinov, A.; Vasudevan, R.; Strelcov, E.; MethodsX (2016) 3, 219 – 230 Steed, C.; Yang, S. M.; Tselev, A.; Jesse, S.; DOI: 10.1016/j.mex.2016.03.002 Biegalski, M.; Shipman, G.; Symons, C.; Bori- [13] Prakash, A.; Bitzek, E.: Materials (2017) 10, 88 sevich, A.; Archibald, R.; Kalinin, S.: Advanced DOI: 10.3390/ma10010088 Structural and Chemical Imaging (2015) 1, 6 [14] Tasan, C. C.; Diehl, M.; Yan, D.; Bechtold, M.; Roters, F.; DOI: 10.1186/s40679-015-0006-6 Schemann, L.; Zheng, C.; Peranio, N.; Ponge, D.; Ko­ [7] Fernandez, J.-J.: Current Opinion in Solid State yama, M.; Tsuzaki, K.; Raabe, D.: Annual Review of and Materials Science (2013) 17, 93 – 106 Materials Research (2015) 45, 391 – 431 DOI: 10.1016/j.cossms.2013.03.002 DOI: 10.1146/annurev-matsci-070214-021103

512 Pract. Metallogr. 55 (2018) 8 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

[15] Lim, H.; Carroll, J. D.; Battaile, C. C.; Buch- [29] Hill, J.; Mulholland, G.; Persson, K.; Seshadri, R.; heit, T. E.; Boyce, B. L.; Weinberger, C. R.: Inter- Wolverton, C.; Meredig, B.: MRS Bulletin (2016) 41, national Journal of Plasticity (2014) 60, 1 – 18 399 – 409 DOI: 10.1016/j.ijplas.2014.05.004 DOI: 10.1557/mrs.2016.93 [16] Möller, J. J.; Prakash, A.; Bitzek, E.: Modelling and [30] Ghiringhelli, L. M.; Carbogno, C.; Levchenko, S.; Simulation in Materials Science and Engineering Mohamed, F.; Huhs, G.; Lüders, M.; Oliveira, M.; (2013) 21, 055011 Scheffler, M.: NPJ Computational Materials (2017) DOI: 10.1088/0965-0393/21/5/055011 3, 46 [17] Diehl, M.; Groeber, M.; Haase, C.; Molodov, D. A.; DOI: 10.1038/s41524-017-0048-5 Roters, F.; Raabe, D.: Journal of Materials (2017) [31] The Novel Materials Discovery (NOMAD) Labora- 69, 848 – 855 tory: European Center of Excellence. URL: https:// [18] Prakash, A.; Weygand, D.; Bitzek, E.: International www.nomad-coe.eu/; accessed 30 May 2018 Journal of Plasticity (2017) 97, 107 – 125 [32] The HDF5 Group; URL: https://support.hdfgroup. DOI: 10.1016/j.ijplas.2017.05.011 org/, accessed 27 May 2018 [19] Sandfeld, S.; Po, G.: Modelling and Simulation [33] Gunkelmann, N.; Alhafez, I.; Steinberger, D.; Ur- in ­Materials Science and Engineering (2015) 23, bassek, H.; Sandfeld, S.: Computational Materials 085003 Science (2017) 135, 181 – 188 DOI: 10.1088/0965-0393/23/8/085003 DOI: 10.1016/j.commatsci.2017.04.008 [20] Steinberger, D.; Gatti, R.; Sandfeld, S.: Journal of [34] Kositski, R.; Steinberger, D.; Sandfeld, S.; Morde- Materials (2016) 68, 2065 – 2072 hai, D.: Computational Materials Science (2018) [21] McDowell, D. L.: International Journal of Plasticity 149, 125 – 133 (2010) 26, 1280 – 1309 DOI: 10.1016/j.commatsci.2018.02.058 DOI: 10.1016/j.ijplas.2010.02.008 [35] Blue Quartz Software. URL: https://dream3d.blue- [22] Dewald, M.; Curtin, W. A.: Modelling and Simula- quartz.net; accessed 30 May 2018 tion in Materials Science and Engineering (2011) [36] National Instruments; Laboratory Virtual Instrument 19, 055002 Engineering Workbench (LabVIEW). URL: https:// DOI: 10.1088/0965-0393/19/5/055002 www.ni.com/labview; accessed 30 May 2018 [23] Prakash, A.; Nöhring, W.; Lebensohn, R. A.; [37] Taverna Workbench; URL: https://taverna.incubator. Höppel, H. W.; Bitzek, E.: Materials Science and apache.org/; accessed 30 May 2018 Engineering A (2015) 631, 104 – 119 [38] Drake Workflow Management Tool; Factual.com. DOI: 10.1016/j.msea.2015.02.005 Available at https://github.com/Factual/drake; ac- [24] Rajan, K.: Materials Today (2005) 8, 38 – 4 cessed 30 May 2018 DOI: 10.1016/S1369-7021(05)71123-8 [39] LAMMPS: Large-scale Atomic/Molecular Mas- [25] Rajan, K.: Annual Review in Materials Research sively Parallel Simulator. Available at http://lammps. (2015) 45, 153 – 169 sandia.gov; accessed 30 May 2018 DOI: 10.1146/annurev-matsci-070214-021132 [40] deal.II: An open source finite element library. Avail- [26] Agarwal, A.; Choudhary, A.: APL Materials (2016) able at http://www.dealii.org; accessed 30 May 4, 053208 2018 DOI: 10.1063/1.4946894 [41] ParaDiS: Parallel Dislocation Simulator. Available [27] Sandfeld, S.; Dahmen, T.; Fischer, F. O. R.; at http://paradis.stanford.edu/site/about; accessed Eberl, C.; Klein, S.; Selzer, M.; Nestler, B.; Moller, J.; 30 May 2018 Mucklich, F.; Engstler, M.; Diebels, S.; Tschun­ [42] MicroMegas: Open source program for dislocation cky, R.; Prakash, A.; Steinberger, D.; Kubel, C.; Her- dynamics simulations. Available at http://zig.onera. man, H.-G.; Schubotz, R.: Strategiepaper – Digitale fr/mm_home_page/; accessed 30 May 2018 Transformation in der Materialwissenschaft und [43] DAMASK: The Düsseldorf Advanced Material Simu- Werkstofftechnik. Available at https://www.dgm. lation Kit. Available at https://damask.mpie.de; ac- de/medien/print-medien/strategiepapier-digitale- cessed 30 May 2018 transformation/; Accessed on 28 May 2018 [44] NanoSCULPT: A tool/methodology to generate com- [28] Pfeif, E. A.; Kroenlein, K.: APL Materials (2016) plex and realistic structures for atomistic simula- 4, 053203 tions. Available at https://bitbucket.org/arunpksh/ DOI: 10.1063/1.4942634 nanosculpt/; accessed 30 May 2018

Pract. Metallogr. 55 (2018) 8 513 Prakash, A.; Sandfeld, S.: Data Informatics / Dateninformatik

[45] FE2AT: Finite Element informed Atomistic Simu- [50] Bueno, P. R.; Varela, J. A.: Materials Research lations. Available at https://bitbucket.org/arun- (2006) 9, 293 – 300. Licensed under Creative Com- pksh/fe2at; accessed 30 May 2018 mons Attribution­ License [46] GitHub. URL: https://github.com; accessed 30 DOI: 10.1590/S1516-14392006000300009 May 2018 [47] GitLab. URL: https://about.gitlab.com; accessed 30 May 2018 [48] Blender: Open Source 3D Creation Suite. Avail- Bibliography able at https://www.blender.org; accessed 30 DOI 10.3139/147.110539 May 2018 Pract. Metallogr. 55 (2018) 8; page 493 – 514 [49] He, W. J.; Zhang, S. H.; Prakash, A.; Helm, D.: Com- © Carl Hanser Verlag GmbH & Co. KG putational Materials Science (2014) 82, 466 – 476 ISSN 0032 – 678X DOI: 10.1016/j.commatsci.2013.10.023

Aruna Prakash Stefan Sandfeld obtained his PhD obtained his PhD from the Karlsruhe from The University Institute of Technol- of Edinburgh. After a ogy. He then worked postdoctoral stay at as PostDoc at Fraun- the Karlsruhe Insti- hofer IWM and sen- tute of Technology, he ior scientist at the joined the Friedrich- Friedrich-Alexander- Alexander-Universität Universität Erlangen- Erlangen-Nürnberg as Nürnberg. In 2018, senior scientist. Since he joined the Chair 2017, he is Professor of Micromechanical Materials Modelling at the of Micromechanical Materials Modelling at the TU Bergakademie Freiberg as senior scientist. TU Bergakademie Freiberg.

514 Pract. Metallogr. 55 (2018) 8