Temporal Information Extraction and Coreference Resolution in Electronic Health Records Julien Tourille
Total Page:16
File Type:pdf, Size:1020Kb
Extracting Clinical Event Timelines : Temporal Information Extraction and Coreference Resolution in Electronic Health Records Julien Tourille To cite this version: Julien Tourille. Extracting Clinical Event Timelines : Temporal Information Extraction and Coref- erence Resolution in Electronic Health Records. Document and Text Processing. Université Paris Saclay (COmUE), 2018. English. NNT : 2018SACLS603. tel-01997223 HAL Id: tel-01997223 https://tel.archives-ouvertes.fr/tel-01997223 Submitted on 28 Jan 2019 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Abstract Important information for public health is contained within electronic health records. Being able to extract this information automatically would allow to improve the daily medical care and to foster advances in clinical research. However, the large majority of it remains locked in documents written in natural language. Among all the clinical aspects that are of interest in these records, the patient timeline is one of the most important. Being able to retrieve clinical timelines would allow for a better understanding of some clinical phenomena such as disease progression and longitudinal ef- fects of medications. It would also allow to improve medical question answering and clinical outcome prediction systems. Accessing the clinical timeline is needed to evaluate the quality of the healthcare pathway by comparing it to clinical guidelines, and to highlight the steps of the pathway where specic care should be provided. In this thesis, we focus on building such timelines by addressing two related Natural Lan- guage Processing (NLP) topics which are temporal information extraction and clinical event coreference resolution. Beyond the obvious necessity of tackling both issues at the same time, we could argue that both topics are interdependent. Intuitively, two event mentions that are coreferent would share the same temporal information. This has a number of implications when considering that tasks are done in a specic order (coreference resolution then temporal information extraction). Information brought by the coreference links could be used to increase the performance of a temporal information extraction approach. Conversely, two event mentions that share the same temporal location and the same mean- ing have high chances to be coreferent. The additional temporal information that would be available to a coreference resolution system could be valuable and improve performance. Based on these observations, it becomes clear that temporal information extraction and clinical event coreference resolution need to be handled jointly not only because they are needed for clinical timeline extraction but also because there are complementary. Temporal information extraction is a complex subject that requires carefully designed an- notated corpora. These resources are mostly in English and the approaches that are devel- oped in the community are biased toward that language. This motivates our rst research question: is it possible to devise a generic approach for temporal information extraction that could be used in dierent languages? These corpora are often packing a rich set of categorical features describing the annotated entities. Moreover, there is a large number of clinical text preprocessing tools that allow to add more information about these entities. Given this context, how could this diversity of categorical features be used in neural approaches? This brings a follow-up question: how does the use of these categorical features impact the performance of such approaches? Coreference resolution is an active topic in the clinical domain. As we mentioned above, both temporal information extraction and coreference resolution are interlinked. This leads II to our fourth research question: what sort of temporal information could be useful for coref- erence resolution? Coreference resolution approaches are complex and it is very hard to improve the performance of simple vanilla models. In this context, how could this temporal information be integrated in a neural approach for coreference resolution? To answer these questions, we present several contributions. We devise a feature-based approach for temporal relation extraction. We evaluate our system on an English corpus. Then, we perform an empirical evaluation on two corpora of documents written in English and in French and showed that a similar approach can be used for both languages. Our next contribution consists in a hybrid approach for end-to-end temporal information extraction that incorporates categorical features. We perform an empirical study on how cat- egorical features impact the performance of our neural-based approach. Then, we evaluate our approach on an English dataset. Concerning coreference resolution, we devise a neural-based approach for coreference resolution in the clinical domain inspired by recent approaches in the general domain. We devise a temporal feature and evaluate its contribution in the context of an empirical study which aimed at measuring how categorical features and neural network components such as attention mechanisms and token character-level representations inuence the performance. In addition to the above-mentioned contributions, we contribute to the NLP community by devising two resources. First, we convert the i2b2 task1c corpus to the CoNLL format. This transformation could foster NLP research on coreference resolution in the clinical domain by allowing a better reproduction of results and by facilitating corpus processing. Second, we pack our neural sequence labeling module into an open source tool called Yet Another SEquence Tagger (YASET) that can be used for any NLP sequence labeling tasks. III Résumé Les dossiers patients électroniques contiennent des informations importantes pour la santé publique. Être en mesure d’extraire automatiquement ces informations permettrait d’amélio- rer les soins médicaux et de soutenir la recherche clinique. Cependant, la majeure partie de ces informations est contenue dans des documents rédigés en langue naturelle. Parmi toutes les informations cliniques intéressantes présentes dans ces dossiers, la chro- nologie médicale du patient est l’une des plus importantes. Être capable d’extraire automa- tiquement cette chronologie permettrait d’acquérir une meilleure connaissance de certains phénomènes cliniques tels que la progression des maladies et les eets à long-terme des mé- dicaments. De plus, cela permettrait d’améliorer la qualité des systèmes de question–réponse et de prédiction de résultats cliniques. Par ailleurs, accéder aux chronologies médicales est nécessaire pour évaluer la qualité du parcours de soins en le comparant aux recommanda- tions ocielles et pour mettre en lumière les étapes de ce parcours auxquelles une attention particulière doit être portée. Dans notre thèse, nous nous concentrons sur la création de ces chronologies médicales en abordant deux questions connexes en Traitement Automatique des Langues (TAL) : l’ex- traction d’informations temporelles et la résolution de la coréférence dans des documents cliniques. Au-delà de la nécessité évidente d’aborder les deux tâches en même temps, nous soute- nons que les deux sujets sont interdépendants. Intuitivement, deux événements médicaux qui sont coréférents partagent les mêmes informations temporelles. Cette observation a des implications si l’on considère l’ordre dans lequel les tâches sont eectuées (le résolution de la coréférence puis l’extraction d’informations temporelles). L’information apportée par la présence de liens de coréférence entre les événements médicaux pourrait être utilisée pour améliorer la performance d’une approche d’extraction d’informations temporelles. Inversement, deux mentions d’événements qui partagent les mêmes informations tempo- relles et la même signication ont une grande chance d’être coréférentes. Cette information temporelle pourrait permettre d’améliorer la qualité d’un système de résolution de la coré- férence. Sur la base de ces observations, il apparaît clairement que l’extraction d’informations tem- porelles et la résolution de la coréférence sont des tâches qui doivent être étudiées conjoin- tement, non seulement car elles sont nécessaires à l’extraction de chronologies médicales, mais aussi car elles sont complémentaires. L’extraction d’informations temporelles est un sujet complexe qui nécessite des corpus soi- gneusement annotés. Ces ressources sont principalement rédigées en anglais et les approches élaborées dans la communauté sont biaisées en faveur de cette langue. De cette observation découle notre première question de recherche : est-il possible d’élaborer une approche géné- rique pour l’extraction d’informations temporelles qui pourrait être utilisée pour diérentes langues ? IV Ces corpus contiennent souvent un ensemble de traits catégoriels décrivant les entités an- notées. De plus, il existe un grand nombre d’outils de prétraitement des textes cliniques qui permettent d’ajouter des informations sur ces entités. Dans ce contexte, comment