Desenvolvimento Da Plataforma Caneregnet Para Anotação Funcional E Análises Do Transcriptoma Da Cana-De-Açúcar
Total Page:16
File Type:pdf, Size:1020Kb
Desenvolvimento da Plataforma CaneRegNet para Anotação Funcional e Análises do Transcriptoma da Cana-de-açúcar Milton Yutaka Nishiyama Junior Tese Apresentada ao Programa InterUnidades de Pós-Graduação em Bioinformática da Universidade de São Paulo para Obtenção do Título de Doutor em Ciências Área de Concentração: Bioinformática Orientadora: Profa. Dr. Glaucia Mendes Souza Co-Orientador: Prof. Dr. João Eduardo Ferreira Durante o desenvolvimento deste trabalho, o autor recebeu auxílio financeiro da CAPES São Paulo, Janeiro de 2015 i Desenvolvimento da Plataforma CaneRegNet para Anotação Funcional e Análises do Transcriptoma da Cana-de-açúcar Tese apresentada ao Programa InterUnidades de Pós-Graduação em Bioinformática da Universidade de São Paulo para obtenção do título de Doutor em Ciências São Paulo, Janeiro de 2015 ii À minha mãe Sandra, ao meu pai Milton, ao meu irmão Márcio À minha esposa Ana Dedico iii “A menos que modifiquemos a nossa maneira de pensar, não seremos capazes de resolver os problemas causados pela forma como nos acostumamos a ver o mundo” (Albert Einstein) iv Agradecimentos Primeiramente agradeço a Deus e à Nossa Senhora, por me dar forças, coragem e orientação durante todos estes anos de trabalho e superação no Doutorado. Agradeço à minha esposa amada Ana Claudia por estar sempre ao meu lado, em todos os momentos alegres e difíceis da Vida e principalmente nesta fase final do Doutorado. Você é uma das principais responsáveis pelo êxito neste trabalho. Agradeço à Profa. Glaucia, que é um exemplo de profissionalismo e competência, pela excelente conviência durante estes últimos 10 anos, pela orientação e por todo o suporte e oportunidades que proporcionou à minha carreira. Ao Prof. João Eduardo Ferreira pela excelente Co-Orientação e por ser decisivo em momentos importantes deste Doutorado. Agradeço aos Profs. Sergio Verjovski-Almeida e Aline Maria da Silva, por me darem a oportunidade de conhecer e trabalhar com Bionformática e de aprender a amar a ciência. Agradeço aos meus pais Milton e Sandra, por me trazerem a este mundo, pela excelente educação e orientação para o caminho do bem, por me mostrarem a alegria de viver e que sempre é possível se superar. Agradeço ao meu irmão Márcio por me mostrar que a vida é muito importante, e que é possível ser feliz independente dos tombos no caminho, por ser um exemplo de vida e uma referência de perseverança e superação, você sempre estará me surpreendendo e me orientando de alguma maneira. Agradeço a todos meus familiares, em especial às minhas Tias Mariê, Suely e Toshie e à minha avó Tsuma por me proporcionarem oportunidades para que Eu pudesse chegar onde cheguei, pelos exemplos de vida, de perseverança e bondade, e pelos maravilhosos momentos de alegrias e amor. Agradeço às centenas de grandes amigos que fiz e passaram pela minha vida, deixando ótimas lembranças, ao longo destes últimos 15 anos no Instituto de Química, Instituto de Computação e Estatística, Instituto Butantan, e Instituto Ludwig. Agradeço aos amigos Sávio, pelo companheirismo e auxílio nesta fase final do doutorado, ao grande amigo Diorge, pela convivência e inesquecíveis experiências em tantas noitadas de pizza, butecos e viagens, que serão lembranças e histórias para o resto da vida, ao (R)Júlio pela amizade e discussões, ao amigo Francisco pela grande amizade e longas discussões, ao amigo Apuã, pela orientação e ensinamento nos primeiros anos de Bioinformática e pelas noitadas de sinuca, feijoadas e discussões. v Agradeço a todo o pessoal do laboratório, principalmente à amiga Luciana, pela amizade e companhia nas longas horas de tabalho e pelas discussões, à Érica, Carolina, Paloma, Sarah e Alessandra pela amizade e pelos momentos divertidos nas festas do cachorro quente e nos almoços do FranBoi, ao Carlos Hotta pela amizade e enriquecedoras discussões científicas, aos amigos Rodrigo, Maxmiller e Humberto pela amizade e discussões do dia a dia. Agradeço ao Edwin, pelos vários momentos de discussões e pelo grande suporte para que este trabalho pudesse tornar-se muito mais importante. Agradeço em especial à Patricia Martorelli, secretária do Programa de Bioinformática, pela orientação nas questões burocráticas, paciência e auxílio durante todo o Doutorado. Agradeço a todos que de alguma forma contribuíram para este trabalho. Agradeço ao CAPES pelo auxílio financeiro na realização deste trabalho e pelo suporte da FAPESP #2008/52146-0. vi Resumo Nishiyama-Jr, Milton Yutaka. Desenvolvimento da Plataforma CaneRegNet para Anotação Funcional e Análises do Transcriptoma da Cana-de-açúcar. Tese (Doutorado em Bioinformática) - Interunidades em Bioinformática, Universidade de São Paulo, São Paulo, 2015. A identificação de genes alvos, vias de sinalização e vias metabólicas para melhoramento de cana-de-açúcar associados a características de interesse, ainda são pouco conhecidos e estudados. Alguns estudos do transcriptoma através de plataformas de microarranjo têm buscado identificar listas de genes, para experimentos tecido- específico ou submetidos a condições de estresse bióticos e abióticos. Estudos pontuais destes dados tem sido associados a vias metabólicas ou vias de sinalização já descritas na literatura, de forma a identificar alterações relacionadas a padrões de expressão gênica. Porém, estas relações em cana-de-açúcar são pouco conhecidas e estudadas. O estudo e entendimento de cana-de-açúcar por meio da diversidade genética e de sua adaptação ao ambiente é um grande desafio, principalmente pela ausência de um genoma sequenciado e por possuir um genoma complexo. Apresentamos nossos resultados para tentar superar tais limitações e desafios para estudos de expressão gênica. Foram desenvolvidas metodologias para anotação funcional do transcriptoma, centradas na transferência de anotação, identificação de vias metabólicas e enzimas pelo método de similaridade bi-direcional, predição de genes full-length, análises de ortologia e desenho de oligonucleotídeos para microarranjos customizados, resultando no ORFeoma de cana-de-açúcar, na identificação e classificação de famílias de fatores de transcrição e identificação de genes ortólogos entre gramíneas. Além disso, desenvolvemos uma plataforma para processamento e análise automatizada de experimentos por microarranjo, para armazenamento, recuperação e integração com a anotação funcional. Adicionalmente desenvolvemos e implementamos métodos para seleção de genes diferencialmente e significativamente expressos, e abordagens para análise de enriquecimento de categorias, e escores de atividade de vias metabólicas. De forma a integrar a anotação funcional do transcriptoma aos estudos por expressão gênica, desenvolvemos a plataforma CaneRegNet e uma interface para integração desta rede de dados biológicos e conhecimentos, composta por aplicativos para consulta e prospecção de dados por análises de agrupamento e correlação entre experimentos de microarranjo, possibilitando a geração de novas hipóteses e predições dentro da organização da regulação celular. vii Palavras-chave: Bioinformática, Banco de Dados, Anotação funcional, integração de dados, prospecção de dados, plataforma de microarranjo, transcriptoma Cana-de- açúcar viii Abstract Nishiyama-Jr, Milton Yutaka. Development of CaneRegNet Platform for Functional Annotation and Analysis of Sugarcane Transcriptome. Tese (Doutorado em Bioinformática) - Interunidades em Bioinformática, Universidade de São Paulo, São Paulo, 2015. The identification of target genes, metabolic and signaling pathways associated with characteristics of interest to the sugarcane improvement are still poorly known and studied. Some transcritptome studies through microarray platforms has tried to identify lists of genes, for tissue-specific experiments or subjected to conditions of biotic and abiotic stress. In the literature specific studies of these data has already been associated with metabolic or signaling pathway, in order to identify changes in these tracks related to patterns of gene expression. However, these relations are still little know and generally defined slightly. The study and understanding of sugarcane by means of genetic diversity and its adaptation to the environment is a major challenge, mainly due to the absence of a sequenced genome and by your complex genome. We present our results to surpass this barrier e challenges for the study of gene expression. Methodologies were developed for the transcriptome functional annotation, focused on the annotation transfer, identification of metabolic pathways and enzymes by the bi- directional method; prediction of full-length genes; ortology analysis and probe design for customized microarrays, resulting in the sugarcane ORFeome, the identification and classification of transcription factor families and identification of ortholog genes between grasses. Besides that, we have developed a plataform for automated processing and analysis for microarray experiments, to store, retrieve and integration with the functional annotation. Additionally, we have developed and implemented methods for identification of differentially and significantly expressed genes, and approaches for over-represented analysis and functional class scoring (FCS). To integrate the functional annotation and the studies by gene expression profile, we have developed the CaneRegNet platform and an interface to integrate this network of biological data and knowledge, composed by searching and data mining tools for clustering and correlations between microarray experiments, enabling the generation of