Processing Structured Data Streams Procesamiento De flujos De Datos Estructurados

Processing Structured Data Streams Procesamiento De flujos De Datos Estructurados

Universidad de Málaga ETS Ingeniería Informática Departamento Lenguajes y ciencias de la computación Programa de Doctorado de Tecnologías Informáticas Processing Structured Data Streams Procesamiento de flujos de datos estructurados Tesis Doctoral GALA BARQUERO MORENO Directores: Antonio Vallecillo Moreno Javier Troya Castilla Málaga, 2020 Escuela de Doctorado DECLARACIÓN DE AUTORÍA Y ORIGINALIDAD DE LA TESIS PRESENTADA PARA OBTENER EL TÍTULO DE DOCTOR D./Dña GALA BARQUERO MORENO Estudiante del programa de doctorado TECNOLOGÍAS INFORMÁTICAS de la Universidad de Málaga, autor/a de la tesis, presentada para la obtención del título de doctor por la Universidad de Málaga, titulada: PROCESSING STRUCTURED DATA STREAMS Realizada bajo la tutorización de ANTONIO VALLECILLO MORENO y dirección de ANTONIO VALLECILLO MORENO Y JAVIER TROYA CASTILLA (si tuviera varios directores deberá hacer constar el nombre de todos) DECLARO QUE: La tesis presentada es una obra original que no infringe los derechos de propiedad intelectual ni los derechos de propiedad industrial u otros, conforme al ordenamiento jurídico vigente (Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el texto refundido de la Ley de Propiedad Intelectual, regularizando, aclarando y armonizando las disposiciones legales vigentes sobre la materia), modificado por la Ley 2/2019, de 1 de marzo. Igualmente asumo, ante a la Universidad de Málaga y ante cualquier otra instancia, la responsabilidad que pudiera derivarse en caso de plagio de contenidos en la tesis presentada, conforme al ordenamiento jurídico vigente. En Málaga, a 09 de NOVIEMBRE de 2020 Fdo.: GALA BARQUERO MORENO Edificio Pabellón de Gobierno. Campus El Ejido. 29071 Tel.: 952 13 10 28 / 952 13 14 61 / 952 13 71 10 E-mail: [email protected] - A quienes creen en mí Universidad de Málaga Universidad de Málaga ETS Ingeniería Informática Departamento Lenguajes y ciencias de la computación El Dr. Antonio Vallecillo Moreno, Catedrático de Universidad en el Departamento de Lenguages y Ciencias de la Computación de la E.T.S. de Ingeniería Informática de la Universidad de Málaga, y el Dr. Javier Troya Castilla, Profesor Contratado Doctor en el Departamento de Lenguajes y Sistemas Informáticos de la E.T.S. de Ingeniería Informática de la Universidad de Sevilla, Certifican que Dña. Gala Barquero Moreno, Ingeniera de Telecomunicaciones, ha realizado en el Departamento de Lenguages y Ciencias de la Computación de la Por el presente documento solicitamos la obtención del certificado de posiciones y saldo de los Universidad de Málaga, bajo su dirección, el trabajo de investigación correspon- activos contratados por José María Troya Linero a fecha de su fallecimiento. diente a la Tesis Doctoral titulada: Fdo. Processing Structured Data Streams Revisado el presente trabajo, estimamos que puede ser presentado al tribunal que ha de juzgarlo, y autorizamos la presentación de esta Tesis Doctoral en la Universidad de Málaga. Del mismo modo certifican que las publicaciones que avalan dicha Tesis Doctoral no han sido utilizadas en tesis anteriores. En Málaga, Noviembre de 2020 María Rosario Castilla Mora Jose María Troya Castilla ............................. ........................ Javier Troya Castilla Marta Troya Castilla Dr. Antonio Vallecillo Moreno Dr. Javier Troya Castilla Agradecimientos Tras tres años de duro trabajo finalmente ha llegado el momento de escribir estas palabras. Tres años en los que en ciertos momentos una o varias personas han supuesto la clave para llegar al día de hoy. No podía, por tanto, dejar pasar la oportunidad de darles las gracias. En primer lugar, a mis directores; Antonio Vallecillo y Javier Troya, ya que sin ellos esta tesis no habría sido posible. Gracias Antonio por brindarme la oportunidad de llevarla a cabo. Doctorarme siempre fue una de mis metas desde que acabé la carrera en 2015 y, finalmente, he podido alcanzarla. Gracias también Javi por toda tu dedicación como director de tesis y por la ayuda que siempre me has brindado incluso sin poder estar de forma presencial. También quiero agradecer a mis compañeros de laboratorio los buenos ratos que he pasado en el 3.3.3. A pesar de que en el último periodo de esta tesis no he pasado mucho tiempo allí podré recordar almuerzos y descansos muy agradables. Sin embargo, quiero hacer un agradecimiento especial a Loli Burgueño, por ser una gran compañera siempre dispuesta a ayudarme, tanto estando cerca como lejos. Fuera del ámbito académico quiero dar las gracias a Aurora Cámara por sus consejos, que me han ayudado a seguir adelante en estos tres años. Gracias a Cristina Navarro y a mi segunda familia de Comediantes Malagueños. Esta familia ha sido un ingrediente de desconexión muy necesario en momentos de estrés. Además, siempre representarán mi verdadera pasión: el Teatro. Por último, quiero hacer mención especial a varias personas. Esta tesis está dedicada a quienes creen en mí y estoy segura de que ellas lo han hecho más que yo misma: Gracias a Alex Lavado. Por estar siempre ahí cuando lo necesitaba, tanto técnica como emocionalmente. Sin tu ayuda esta tesis no sería una realidad. Gracias a Encarna, mi abuela. Por saber valorar y ser una testigo incansable Agradecimientos de todos los proyectos en los que me involucro sin importar los años que pasen. Gracias a Pedro y Sara, mi padre y mi hermana. Porque puedo presumir de tener un buen padre dispuesto a darlo todo por sus hijas y una hermana de la que aprendo muchas cosas aun siendo diez años más joven que yo, aunque puede que sea precisamente esto por lo que puedo aprender de ella. Sara, quiero que esto te sirva de inspiración para aprender, esta vez tú de mí, a no rendirte ante ninguna dificultad. Gracias a Jose Burgos. Por compartir tu vida conmigo, por ser mi gran apoyo en los malos momentos y no dejarme caer y, también, por disfrutar juntos de los buenos. Siempre eres esa voz que me dice ‘Hazlo, tú puedes y yo te apoyo’. Y finalmente gracias a Vicky, mi madre. Por no dudar de mí jamás y ser un ejemplo de constancia y esfuerzo. Esta tesis es, en primer lugar, dedicada a ti. Gala Barquero Moreno xii Abstract A large amount of data is daily generated from different sources such as social networks, recommendation systems or geolocation systems. Moreover, this information tends to grow exponentially every year. Companies have discovered that the processing of these data may be important in order to obtain useful conclusions that serve for decision-making or the detection and resolution of problems in a more efficient way, for instance, through the study of trends, habits or customs of the population. The information provided by these sources typically consists of a non-structured and continuous data flow, where the relations among data elements conform graph structures. Inevitably, the processing performance of this information progressively decreases as the size of the data increases. For this reason, non-structured information is usually handled taking into account only the most recent data and discarding the rest, since they are considered not relevant when drawing conclusions. However, this approach is not enough in the case of sources that provide graph-structured data, since it is necessary to consider spatial features as well as temporal features. These spatial features refer to the relationships among the data elements. For example, some cases where it is important to consider spatial aspects are marketing techniques, which require information on the location of users and their possible needs, or the detection of diseases, that use data about genetic relationships among subjects or the geographic scope. It is worth highlighting three main contributions from this dissertation. First, we provide a comparative study of seven of the most common processing platforms to work with huge graphs and the languages that are used to query them. This study measures the performance of the queries in terms of execution time, and the syntax complexity of the languages according to three parameters: number of characters, number of operators and number of internal variables. We elaborate this study in order to choose the most suitable technology to develop our proposal. Abstract Second, we propose three methods to reduce the set of data to be processed by a query when working with large graphs, namely spatial, temporal and random approximations. These methods are based on Approximate Query Processing techniques and consist in discarding the information that is considered not relevant for the query. The reduction of the data is performed online with the processing and considers both spatial and temporal aspects of the data. Since discarding information in the source data may decrease the validity of the results, we also define the transformation error obtain with these methods in terms of accuracy, precision and recall. Finally, we present a preprocessing algorithm, called SDR algorithm, that is also used to reduce the set of data to be processed, but without compromising the accuracy of the results. It calculates a subgraph from the source graph that contains only the relevant information for a given query. Since this technique is a preprocessing algorithm it is run offline before the actual processing begins. In addition, an incremental version of the algorithm is developed in order to update the subgraph as new information arrives to the system. xiv Contents List of Figures xxi List of Tables xxv Glossary xxvii 1 Introduction 1 1.1 Motivations and Goals . 3 1.1.1 General Goals . 4 1.1.2 Specific Goals . 4 1.2 Contribution . 5 1.3 Outline . 5 2 Background 9 2.1 Model-Driven Engineering . 9 2.1.1 History . 10 2.1.2 Main concepts . 11 2.2 Data Streaming Applications . 16 2.2.1 Complex Event Processing . 18 2.2.2 Approximate Query Processing . 21 2.3 Graph-structured information . 22 2.3.1 Models as graphs .

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    340 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us