Automated Detection of Adverse Drug Events by Data Mining of Electronic Health Records Emmanuel Chazard
Total Page:16
File Type:pdf, Size:1020Kb
Automated detection of adverse drug events by data mining of electronic health records Emmanuel Chazard To cite this version: Emmanuel Chazard. Automated detection of adverse drug events by data mining of electronic health records. Human health and pathology. Université du Droit et de la Santé - Lille II, 2011. English. NNT : 2011LIL2S009. tel-00637254 HAL Id: tel-00637254 https://tel.archives-ouvertes.fr/tel-00637254 Submitted on 31 Oct 2011 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. UNIVERSITE LILLE NORD DE FRANCE ÉCOLE DOCTORALE BIOLOGIE SANTE FACULTE DE MEDECINE HENRY WAREMBOURG THESE SCIENTIFIQUE POUR L ’OBTENTION DU GRADE DE DOCTEUR DE L ’U NIVERSITE DE LILLE 2 BIOSTATISTIQUES Soutenue le 09/02/2011 par Emmanuel Chazard AUTOMATED DETECTION OF ADVERSE DRUG EVENTS BY DATA MINING OF ELECTRONIC HEALTH RECORDS Jury : Pr. Elske Ammenwerth Examinateur Pr. Régis Beuscart Examinateur Pr. Paul Landais Rapporteur Pr. Nicos Maglaveras Rapporteur Pr. Christian Nøhr Examinateur Pr. Cristian Preda Examinateur Pr. Alain Venot Examinateur Automated detection of Adverse Drug Events by Data Mining of Electronic Health Records Emmanuel Chazard, PhD Thesis Page 2 of 262 SUMMARY Automated Detection of Adverse Drug Events by Data Mining of Electronic Health Records Introduction Adverse Drug Events (ADE) are injuries due to medication management rather than the underlying condition of the patient. They endanger the patients and most of them could be avoided. The detection of ADEs usually relies on spontaneous reporting or medical chart reviews. The objective of the present work is to automatically detect cases of ADEs by means of Data Mining, which are a set of statistical methods particularly suitable for the discovery of rules in large datasets. Material A common data model is first defined to describe the available data extracted from the EHRs (electronic health records). More than 90,000 complete hospital stays are extracted from 5 French and Danish hospitals. Those complete records include diagnoses, lab results, drug administrations, administrative and demographic data as well as free-text reports. When the drugs are not available from any CPOE (Computerized Prescription Order Entry), they are extracted from the free-text reports by means of semantic mining. In addition, an exhaustive set of SPCs (Summaries of Product Characteristics) is provided by the Vidal Company. Methods We attempt to trace all the outcomes that are described in the SPCs in the dataset. By means of data mining, especially Decision Trees and Association Rules, the patterns of conditions that participate in the occurrence of ADEs are identified. Many ADE detection rules are generated; they are filtered and validated by an expert committee. Finally, the rules are described by means of XML files in a central rules repository, and are executed again for statistics computation and ADE detection. Results 236 ADE-detection rules have been discovered. Those rules enable to detect 27 different kinds of outcomes. Several statistics are automatically computed for each rule in every medical department, such as the confidence or the relative risk. Those rules involve innovative conditions: for instance some of them describe the consequences of drug discontinuations. In addition, two web tools are designed and are available through the web for the physicians of the departments: the Scorecards enable to display statistical and epidemiological information about ADEs in a given department and the Expert Explorer enables the physicians to review the potential ADE cases of their department. Finally, a preliminary evaluation of the clinical impact of the potential ADEs is performed as well as a preliminary evaluation of the accuracy of the ADE detection. Automated detection of Adverse Drug Events by Data Mining of Electronic Health Records Emmanuel Chazard, PhD Thesis Page 3 of 262 RESUME Détection automatisée d’Effets Indésirables lies aux Médicaments par fouille statistique de données issues du dossier patient électronique Introduction Les effets indésirables liés aux médicaments (EIM) sont des dommages liés au traitement médicamenteux plutôt qu’aux conditions sous-jacentes du patient. Ils mettent les patients en danger, et la plupart d’entre eux sont évitables. La détection des EIM repose habituellement sur les reports spontanés d’EIM et sur la revue de dossiers. L’objectif du présent travail est d’identifier automatiquement les cas d’EIM en utilisant des méthodes de Data Mining (fouille statistique de données). Le Data Mining est un ensemble de méthodes statistiques particulièrement adaptées à la découverte de règles dans de grandes bases de données. Matériel Un modèle de données commun est tout d’abord défini, dans le but de décrire les données qui peuvent être extraites des dossiers patient électroniques. Plus de 90 000 séjours hospitaliers complets sont extraits de 5 hôpitaux français et danois. Ces enregistrements incluent les diagnostics, les résultats de biologie, les médicaments administrés, des informations démographiques et administratives, et enfin du texte libre (courriers, comptes-rendus). Lorsque les médicaments ne peuvent être extraits d’un CPOE (système de prescription connectée), ils sont extraits des courriers par Semantic Mining (fouille de texte). De plus, la société Vidal fournit un ensemble exhaustif de RCP (Résumés des Caractéristiques du Produit). Méthode On tente de tracer dans les données tous les événements indésirables décrits dans les RCP. Puis en utilisant les méthodes de Data Mining , en particulier les arbres de décision et les règles d’association, on identifie les circonstances qui favorisent l’apparition d’EIM. Plusieurs règles de détection des EIM sont ainsi obtenues, elles sont ensuite filtrées et validées par un comité d’experts. Enfin, les règles sont décrites sous forme de fichiers XML et stockées dans une base. Elles sont exécutées afin de calculer certaines statistiques et de détecter les cas d’EIM. Résultats 236 règles de détection des EIM sont ainsi découvertes. Elles permettent de détecter 27 types d’événements indésirables différents. Plusieurs statistiques sont calculées automatiquement pour chaque règle dans chaque service, comme la confiance ou le risque relatif. Ces règles impliquent des conditions innovantes : par exemple certaines règles décrivent les conséquences de l’arrêt d’un médicament. De plus, deux outils Web sont développés et mis à la disposition des praticiens via Internet : les Scorecards permettent de présenter des informations statistiques et épidémiologiques sur les EIM propres à chaque service, tandis que l’ Expert Explorer permet aux médecins d’examiner en détail les cas probables d’EIM de leur service. Enfin, une évaluation préliminaire de l’impact clinique des EIM est menée, ainsi que l’évaluation de la précision de détection des EIM. Automated detection of Adverse Drug Events by Data Mining of Electronic Health Records Emmanuel Chazard, PhD Thesis Page 4 of 262 ACKNOWLEDGEMENTS I would like to thank the members of the board of examiners, and especially the reviewers. I am very grateful to them for it. I would like to thank all the contributors to this work, especially: - The people who provided me with the data or helped me extracting the data: o Mrs. Julie Niès & Mr. Bertrand Guillot from the Medasys Company o Dr Michel Degroisse, Mrs. Nicole Radi & Mrs. Laurie Ferret from the Denain General Hospital o Mrs. Sanne Jensen, Mr. Kenneth Skovhus Andersen & Mr. Preben Poul Grothe Jensen from the Capital Region Hovedstaden Hospitals (Denmark) o Pr Stefan Darmoni, Dr Philippe Massari & Mr. Ivan Kergourlay from the Rouen University Hospital o Mr. Mostafa Maazi from the Lille University Hospital o Mr. Jean-Charles Sarfati from the Oracle Company - The people who performed the anonymization and the semantic mining of the free-text records and provided me with information about the indexing tools: o Pr Stefan Darmoni, Dr Philippe Massari & Mr. Ivan Kergourlay from the Rouen University Hospital o Mrs. Suzanne Pereira from the Vidal Company - The people who provided me with already existing structured rules, detailed description of those rules and helped me filtering and computing them: o Mr. Ludovic Durand-Texte from the Vidal Company o Dr Grégoire Ficheur from the Lille University Hospital - The people who brought important reflections about the data-mining-based rule induction process: o Mr. Cristian Preda from the Lille 1 University o Pr Régis Beuscart, Dr Grégoire Ficheur & Dr Béatrice Merlin from the Lille University Hospital o Dr Peter Mc Nair from the Kennedy Center (Denmark) o Mrs. Jytte Brender Mc Nair from the Aalborg University (Denmark) - The clinicians, pharmacologists, pharmacists, and experts who helped filtering the rules, and writing the labels: o Mrs. Elisabeth Serrot & Mrs. Sophie Tessier from the Vidal Company o Pr Jacques Caron, Dr Sophie Gauthier, Dr Béatrice Merlin & Mr. Pierre Fontana from the Lille University Hospital - The computer scientists who implemented the Expert Explorer and the Scorecards and