Professional Search in Pharmaceutical Research
Total Page:16
File Type:pdf, Size:1020Kb
Professional Search in Pharmaceutical Research Alex Kohn München 2009 Professional Search in Pharmaceutical Research Alex Kohn Dissertation an der Fakultät für Mathematik, Informatik und Statistik der Ludwig‐Maximilians‐Universität München vorgelegt von Alex Kohn München, den 24.11.2009 Erstgutachter: Prof. Dr. François Bry (Ludwig‐Maximilians‐Universität München) Zweitgutachter: Prof. Dr. Steffen Staab (Universität Koblenz‐Landau) Tag der mündlichen Prüfung: 19.01.2010 Abstract In the mid 90s, visiting libraries – as means of retrieving the latest literature – was still a common necessity among professionals. Nowadays, professionals simply access information by ‘googling’. Indeed, the name of the Web search engine market leader “Google” became a synonym for searching and retrieving information. Despite the increased popularity of search as a method for retrieving relevant information, at the workplace search engines still do not deliver satisfying results to professionals. Search engines for instance ignore that the relevance of answers (the satisfaction of a searcher’s needs) depends not only on the query (the information request) and the document corpus, but also on the working context (the user’s personal needs, education, etc.). In effect, an answer which might be appropriate to one user might not be appropriate to the other user, even though the query and the document corpus are the same for both. Personalization services addressing the context become therefore more and more popular and are an active field of research. This is only one of several challenges encountered in ‘professional search’: How can the working context of the searcher be incorporated in the ranking process; how can unstructured free‐text documents be enriched with semantic information so that the information need can be expressed precisely at query time; how and to which extent can a company’s knowledge be exploited for search purposes; how should data from distributed sources be accessed from into one‐single‐entry‐point. This thesis is devoted to ‘professional search’, i.e. search at the workplace, especially in industrial research and development. We contribute by compiling and developing several approaches for facing the challenges mentioned above. The approaches are implemented into the prototype YASA (Your Adaptive Search Agent) which provides meta‐search, adaptive ranking of search results, guided navigation, and which uses domain knowledge to drive the search processes. YASA is deployed in the pharmaceutical research department of Roche in Penzberg – a major pharmaceutical company – in which the applied methods were empirically evaluated. Being confronted with mostly unstructured free‐text documents and having barely explicit metadata at hand, we faced a serious challenge. Incorporating semantics (i.e. formal knowledge representation) into the search process can only be as good as the underlying data. Nonetheless, we are able to demonstrate that this issue can be largely compensated by incorporating automatic metadata extraction techniques. The metadata we were able to extract automatically was not perfectly accurate, nor did the ontology we applied contain considerably “rich semantics”. Nonetheless, our results show that already the little semantics incorporated into the search process, suffices to achieve a significant improvement in search and retrieval. We thus contribute to the research field of context‐based search by incorporating the working context into the search process – an area which so far has not yet been well studied. v Zusammenfassung Die seit den 90er Jahren vorherrschende Informationsflut als auch das Aufkommen neuer Technologien haben die Prozesse des Informationszugriffes auf nie dagewesene Art und Weise geprägt. Das Ergebnis dieses Wandels ist, daß Menschen heutzutage nach Informationen ‚googeln’ anstatt Bibliotheken zu durchstöbern. Tatsächlich ist der Name des derzeitigen Internet‐Suchmaschinen‐Marktführers Google zu einem Synonym für die Suche nach Informationen geworden. Dieses Phänomen betrifft insbesondere auch Experten, für die Suche nach Informationen ein Teil des alltäglichen Geschäftes ist. Folglich sind Suchmaschinen nicht nur im Web die erste Wahl um Informationen zu finden sondern auch im Intranet von Firmen. Obwohl die Verwendung von Suchmaschinen bei Experten – insbesondere bei Fachkräften in Unternehmen – sehr populär geworden ist, liefern Suchmaschinen im Intranet immer noch nicht zufriedenstellende Ergebnisse. Eine mögliche Ursache unter anderen ist, daß Suchmaschinen häufig den Kontext des Suchenden (persönliche Bedürfnisse, Hintergrundwissen, usw.) ignorieren. Tatsächlich ist aber die Relevanz eines Suchergebnisses, nicht nur von der eigentlichen Suchanfrage und der Dokumentsammlung abhängig, sondern auch vom Arbeitskontext des Suchenden. Folglich kann eine Antwort – bei gleichbleibender Suchanfrage und identischem Korpus – für den einen Benutzer relevant sein und für den anderen Benutzer nicht. Die Einbeziehung des Kontexts bei der Suche ist ein aktives Forschungsfeld und wird zunehmend auch in Personalisierungsdiensten führender Internet‐Suchmaschinen berücksichtigt. Kontext‐basierte Suche ist nur eine von vielen Herausforderungen im Umfeld von spezialisierten Suchmaschinen: Wie kann der Arbeitskontext des Suchenden in die Ermittlung der Rangfolge der Ergebnisdokumente einbezogen werden; Wie können vorhandene Daten mit semantischen Informationen bereichert werden, so daß die Frage präzise formuliert werden kann; Wie und zu welchem ausmaß kann das Vorwissen eines Unternehmens dazu genutzt werden die Suche zu verbessern; Wie sollen verteilte Daten in einem Suchportal zusammengefaßt werden. Die vorliegende Dissertation befaßt sich dem Thema „Expertensuche“, d.h. Suche am Arbeitsplatz, insbesondere in der Forschung und Entwicklung. Ein Beitrag dieser Arbeit liegt in der Zusammenstellung und Entwicklung von Ansätzen, mit denen den zuvor genannten Herausforderungen begegnet werden kann. Die Ansätze werden in dem Prototyp YASA (Your Adaptive Search Agent) implementiert, welcher Meta‐ Suche, adaptive Sortierung von Suchergebnissen und unterstütztes Navigieren ermöglicht. Zahlreiche Prozesse profitieren dabei von domänen‐spezifischem Wissen. YASA wird in der pharmazeutischen Forschungsabteilung von Roche in Penzberg (ein größeres Pharma Unternehmen) produktiv genutzt. Letzteres bietet ein ideales Umfeld für die empirische Untersuchung der angewandten Prinzipien. vi Die überwiegende Speicherung der Daten in Form unstrukturierter Textdokumente und das Fehlen expliziter Metadaten, stellten eine ernste Herausforderung dar. Die Einbindung von Semantik (traditionell als formale Wissensrepräsentation verstanden) kann nämlich nur so gut sein wie die zugrundeliegenden Daten. Nichtsdestotrotz sind wir in der Lage dieses Problem durch Einbindung automatischer Metadaten‐Extraktionsmethoden weitgehend zu umgehen. Die Metadaten, welche wir extrahieren konnten, waren weder perfekt noch war die daraus resultierende und von uns verwendete Ontologie semantisch betrachtet besonders reich. Unsere Ergebnisse zeigen aber, daß bereits ein bißchen Semantik die Informationsbeschaffung deutlich erleichtert. Der Beitrag der Arbeit liegt also auf dem Gebiet der kontext‐basierten Suche, d.h. der Einbeziehung des Arbeitskontexts in den Suchprozeß – ein Gebiet, welches bis jetzt noch nicht gut erforscht wurde. vii Acknowledgements “It is with words as with sunbeams. The more they are condensed, the deeper they burn.” Robert Southey (1774 – 1843) I would like to thank my scientific mentor and advisor Prof. François Bry, who – always optimistic and positive – helped me discover my research interests as well as to find and shape my ideas. I appreciated the discussions with him, his feedback, and his friendly attitude throughout my dissertation. I am also grateful to Prof. Steffen Staab for his willingness to scientific cooperation. The experience and knowledge he provided were particularly enlightening and helpful for my research. Next, I thank my supervising tutor Dr. Alexander Manta at Roche and the company itself for offering me the scientific and financial opportunity to pursue my doctoral thesis. In countless discussions, Alexander guided me in times of despair, doubt, and idea hunting. His open mindedness gave me a lot of flexibility and freedom during my research. Special thanks to my colleague Dr. Stefan Klostermann who provided valuable insights about research at Roche and guidance during my first year. Thanks to my colleagues from In Silico Sciences who gave me advice and support in all questions related to bioinformatics and statistics. Thanks to the technical staff of Scientific Research Informatics for their support with servers and hardware upgrades. Special thanks to all colleagues from Pharma Research who participated in the evaluation of YASA. Finally, a great and warm thanks to Tobias Högel, who wrote his diploma thesis under my supervision, and to Florian Stadler and Marc Gössling, whom I partially supervised during their internship at Roche. Their contribution and dedication helped me tremendously. Thanks to my current as well as past fellow students in the PMS department at the University of Munich, Paula‐Lavinia Pătrânjan, Sacha Berger, Edgar Stoffel, Tim Furche, Benedikt Linse, Michael Eckert, Stephan Leutenmayr, Alexander Pohl, Christoph Wieser, Jakub Kotowski, Klara Weiand, and Olga Poppe who made the time at the university always a pleasure. Special thanks to Dr. Norbert Eisinger who gave me valuable feedback