A Transcriptomic Analysis of Intratumor and Stromal Heterogeneity in Breast
Total Page:16
File Type:pdf, Size:1020Kb
A transcriptomic analysis of intratumor and stromal heterogeneity in breast cancer by Sadiq Mehdi Ismail Saleh A thesis submitted to McGill University in partial fulfillment of the requirements of the degree of Doctor of Philosophy © Sadiq Mehdi Ismail Saleh, 2016 Department of Biochemistry, McGill University Montreal QC, Canada December 2016 I II ABSTRACT The management of breast cancer is complicated by inter- and intra-tumour heterogeneity. In particular, triple negative breast cancer (TNBC) is a difficult to treat, molecularly heterogeneous cancer subtype that lacks actionable targets. The heterogeneity of the TNBC microenvironment (stroma) has not been well characterized despite the key role that it may play in tumor progression. Similarly, the impact of intra-tumoral heterogeneity on therapeutic response and patient outcome remains largely unknown. To address these challenges I investigated the transcriptome of tumor-associated stroma isolated from TNBCs (n=57), as well as comprehensive single-cell gene expression profiling from a treatment-resistant breast patient-derived xenograft (PDX) displaying heterogeneity for the therapeutically targetable HER2 receptor (n=33 cells). Analysis of the TNBC stroma identified four stromal properties associated with T cells (T), B cells (B), invasive epithelial cells (E), or a desmoplastic reaction (D) respectively. My method, entitled STROMA4, assigns each sample as either low, intermediate, or high for each property independently in stromal or bulk expression profiles. I provide evidence that TNBCType, a previously reported subtyping scheme for TNBC, underestimates the complexity of some tumors, and show how stratification by the STROMA4 method can predict patient benefit from therapy with increased sensitivity. Combining the STROMA4 property assignments generates a novel TNBC subtyping scheme, and analysis of this subtyping scheme revealed that only 15 of 81 possible subtypes had larger than expected populations. This combinatorial III approach revealed that the B, T and E properties are prognostic only when the D property is not high, providing a potential explanation for misprediction by existing classifiers. Analysis of single-cell RNA-seq (scRNA-seq) data from a PDX heterogeneous for HER2 expression identified distinct cellular subpopulations and revealed a predominantly basal breast cancer subtype. Unsupervised hierarchical clustering distinguished two major cellular subpopulations with differential expression of EGFR, which was validated immunohistochemically in the resected tumour. Further investigation into differences between the EGFR-high and -low cells in the scRNA-seq data indicated that EGFR-high cells were more “stem-like”, which was then validated experimentally. The presence of EGFR-high stem cells in this PDX model, as well as in other PDX models, is associated with sensitivity to EGFR inhibition. Analysis of the TNBC stroma, using a multi-parameter classification model, produces a simple ontology that captures TNBC heterogeneity, and informs how tumor-associated properties and biologies interact to affect prognosis; while analysis of the scRNA-seq data identified two groups of cells with differential expression of EGFR and stem-like characteristics, which is associated with response to EGFR inhibition. Thus, this work adds to our understanding of the contribution of inter- and intra-tumoral heterogeneity to the complexity of the cancer ecosystem, and the effect it has on response to therapy. IV RÉSUMÉ L’hétérogénéité inter et intra-tumorale participe à la complexité de la biologie du cancer du sein. Plus particulièrement, le cancer du sein triple négatif (CSTN) est difficile à traiter en raison de son hétérogénéité au niveau moléculaire et manque de cibles thérapeutiques actionnables. L’hétérogénéité du microenvironnement tumoral des CSTN reste peu caractérisée malgré le rôle clé que ce dernier peut jouer dans la progression tumorale. De façon similaire, l’impact de l’hétérogénéité intra-tumorale sur la réponse thérapeutique et la survie des patients demeure inconnue. Afin d’élucider ces mécanismes, j’ai analysé le transcriptome du stroma tumoral isolé à partir de CSTN (n=57) ainsi que le profil d’expression cellulaire (cellules individuelles ; n=33) d’une xénogreffe dérivée de tumeur de patient (XDP) résistante à la thérapie et arborant une hétérogénéité d’expression du récepteur HER2. Ce récepteur peut être ciblé de façon thérapeutique en clinique. L’analyse du stroma des CSTN a permis d’identifier quatre propriétés stromales associées aux cellules T (T), B (B), aux cellules épithéliales invasives épithéliales (E), ou à une réaction desmoplasique (D). La méthode que j’ai développée, intitulée « STROMA4 », assigne un score faible, intermédiaire ou élevé pour chaque propriété à partir des profils d’expression génique du stroma (stroma tumoral) ou de la tumeur globale (tumeur en entier). J’ai pu montrer que le « TNBCType », une méthode de sous-typage des CSTN ayant préalablement été publiée, V sous-estime la complexité de certaines tumeurs. De plus, la stratification des patientes selon la méthode « STROMA4 » permet de prédire la réponse à la thérapie avec une meilleure sensibilité que la méthode « TNBCType ». La combinaison des différentes propriétés identifiées par la méthode « STROMA4 » génère une nouvelle stratification des CSTN. L’analyse de cette nouvelle classification a permis de montrer que seul 15 des 81 sous-types possibles (d’après les différentes combinaisons de scores des propriétés) sont représentés par une population plus grande qu’attendue. Cette approche combinatoire révèle que les propriétés B, T et E sont pronostiques seulement quand la propriété D est de faible score. Ceci pourrait expliquer, en partie du moins, la mauvaise prédiction des classificateurs existants. L’analyse des données provenant du séquençage ARN de cellules isolées (scRNA-seq) d’une XPD hétérogène pour l’expression de HER2 identifie des sous-populations cellulaires distinctes et révéle, de façon dominante, un sous-type basal de cancer de sein. La classification hiérarchique (« hierarchical clustering » en anglais) non supervisée distingue deux sous- populations cellulaires majeures ayant des taux d’expression du récepteur EGFR différentes au niveau de l’expression génique. Cette différence est validée au niveau protéique par immunohistochimie sur un échantillon de tumeur humaine réséquée au moment de la chirurgie de la patiente. L’étude des différences entre les cellules à forte et faible expression de EGFR par scRNA-seq indique que les cellules ayant une expression élevée de EGFR arborent des propriétés de cellules « souches ». Ce résultat a été validée de façon expérimentale. La présence de cellules ayant un fort taux d’expression de EGFR dans ce modèle ainsi que dans d’autres modèles XPD, est associée à une sensibilité vis à vis de l’inhibition de EGFR. VI L’analyse du stroma des CSTN, utilisant un modèle de classification multi-paramètrique, génère une classification simple qui récapitule l’hétérogénéité des CSTN. Cette classification permet de comprendre comment les différentes propriétés biologiques associées à la tumeur interagissent et affectent le pronostic. D’autre part, l’analyse des données du scRNA-seq identifie deux groupes de cellules avec des différences de (i) niveaux d’expression de EGFR, (ii) propriétés de cellules « souches ». Ces cellules sont également associées avec une réponse à l’inhibition de EGFR. Ainsi, ce travail permet une meilleure compréhension de la contribution de l’hétérogénéité aux niveaux inter- et intra-tumoral à la complexité de l’écosystème du cancer et son effet sur la réponse à la thérapie. VII ACKNOWLEDGEMENTS This work was supported by the CIHR Systems Biology Training program, and a McGill Faculty of Medicine Internal Studentship (awarded as Gershman Memorial and Hugh E. Burke Fellowships). This work would also not have been possible were it not for the patients who so generously donated their tissue and consented to be part of this work. A big thank you to Kanwal Hayat, Karima Hayat, and Tina Gruosso for working on the French translation of my abstract. I would like to thank my thesis supervisors Dr. Morag Park and Dr. Michael T. Hallett for all their guidance, training, and support over the last 7 years. I appreciate the time you took to groom me in matters both academic and professional. I will fondly remember our conversations that allowed me to grow my perspective of the world, and to expand beyond the confines I had previously been restricted to. In particular I would like to thank Dr. Hallett for taking me under his wing, and having the patience to work with me, despite my lack of bioinformatics knowledge. I would also like to thank past and present members of my Research Advisory Committee: Dr. Josie Ursini-Siegel, Dr. Thomas Duchaine, Dr. Vanessa Dumeaux, Dr. Jason Young, and Dr. Derek Ruths – for your insight and thought provoking questions. A special thank you to Dr. Vanessa Dumeaux, Daniel Del Balso, and other past and present members of the Hallett lab for their advice (both academic and non-academic) during my VIII tenure at the lab. I would also like to thank Paul Savage for allowing me to work with him on the single cell RNA-seq project. It was an honour to have collaborated with you on this work, despite the hard time I gave you about this just being a “small project”. Additionally, I would like to thank the past and present members of the Park lab for the memorable times I had with them, and to confirm that I will probably have to change my sleeping schedule, and wake up earlier now that I am all “grown up”. I will especially remember with fondness my times playing volleyball, ice hockey (Go Squids!), Scopa, and the trips to Barbados and Mont Ste. Hilaire with members of the Park and Hallett labs. To the parents I was born to, and to the parents who came into my life a little later, I would like to thank you for your being the platform that allowed me to get to where I am today. I know that without your unconditional love, I would not have had the courage to push forward, and get to this point.