Hacia Un Sistema De Marketing Dirigido Más Eficaz Y
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDAD DE DEUSTO HACIA UN SISTEMA DE MARKETING DIRIGIDO MÁS EFICAZ Y PERSONALIZADO EN REDES SOCIALES Tesis doctoral presentada por PATXI GALÁN GARCÍA para el título de DOCTOR EN INGENIERÍA INFORMÁTICA Y TELECOMUNICACIONES Directores Dr. CARLOS LAORDEN GÓMEZ y Dr. PABLO GARCÍA BRINGAS Bilbao, 14 de Junio de 2016 UNIVERSIDAD DE DEUSTO HACIA UN SISTEMA DE MARKETING DIRIGIDO MÁS EFICAZ Y PERSONALIZADO EN REDES SOCIALES Tesis doctoral presentada por PATXI GALÁN GARCÍA dentro del Programa de Doctorado en INGENIERÍA EN INFORMÁTICA Y TELECOMUNICACIÓN Dirigida por el Dr. CARLOS LAORDEN GÓMEZ y por el Dr. PABLO GARCÍA BRINGAS Author Co-advisor Co-advisor Bilbao, 14 de Junio de 2016 —————————- Raquel Eres mi estrella polar en las oscuras noches, mi brújula en la locura, mi calma en la tormenta, el mechero de mi gasolina, mi uno y mi cero, mi pepito grillo, mi mayor manía y mi mejor respuesta, mi numero par, mi compañera, mi vida.... ---- Te quiero —————————- Mama, abuela y abuelo Una familia se da, no se elije. Yo tengo suerte de que la fortuna me haya sonreído. Sin vosotros nada de esto nunca hubiera sido posible. ---- Espero que os sintáis orgullosos. —————————- Cuadrilla Toda aventura necesita amigos y compañeros, se que he elegido bien. ---- Ultras. —————————- Abstract The e-commerce paradigm has completely changed the world, global- izing the impact of companies and allowing the creation of new types of businesses with presence exclusively on the digital world. Being ad- vertising one of the most lucrative forms of business, mainly on-line ad- vertising, it has also become a differentiating and required tool for most organizations to promote their services and products. One of the advertising channels that has been increasing in usage is the Internet. The number of ads in this medium has grown impressively. The reason is simple, using the Internet is cheap and allows one to easily reach millions of people every day. Unfortunately, the perfect announce- ment may not be sent to the most receptive users if the target user’s preferences have not been taken into account. Furthermore, with the growth of social networking, the era of smart- phones and the boom of the big data paradigm, information retrieval (IR) systems have flourished in analyzing and extracting conclusions from the vast amount of freely available data on the Internet, mostly personal information from users. Some companies gather the users data to create profiles based on users’ preferences, behavior or interactions to offer advertisements or even to directly sell users’ information. Being the key factor to “know” the users, these IR systems gather as much information about them. As possible, to generate profiles based on a very large temporal window. Although the general basis allows for the creation of very detailed user profiles, it may generate a problem of obsolescence if the weight of real-time interactions are not taken into account. Because one of the main objectives of user profiling is to send a directed advertisement, not being able to successfully target the users’ needs leads to a spam problem (i.e., causes users to consider the message as disturbing). A solution to obtain a more up-to-date profile from the user resides in a relatively old communication system, short message service (SMS), which is currently more popular in its adaptation to new technologies and is known as instant messaging (IM) systems, including WhatsApp, Telegram, Facebook Messenger, Hangouts or Line. These systems, de- spite not having a limitation in terms of interaction length, are commonly used in a dialogue manner, that is, using short sentences. Those interac- tions represent an important and up-to-date source of information about users but entail an important drawback, which is the difficulty to inter- pret them due to the insufficient context about each interaction. Additionally, linking a user’s preferences with ad information is an area that connects marketing with natural language processing, and currently, this advertising approach generates ads for users that are higher in qual- ity and have more impact than ads generated using other approaches. In light of this background, this work proposes one methodology to ex- tract the context from short sentences, based on a newly created DB- pedia topics taxonomy, and to offer more directed and real-time adver- tising, based on an Amazon Bookstore category taxonomy with the aim of increasing the effect of the delivery system. We also have created a resource (map) that links Amazon Book Store categories with DBpedia article topics and created 2 new datasets of short sentences: one labeled using DBpedia topics, to link them with their context, and the other la- beled using Amazon book categories, giving suggestions about products related to specific contexts. Moreover, we generated definitions about DBpedia topics and Amazon books categories, which were either miss- ing or not descriptive enough, to help subsequent works in the task of using DBpedia’s and Amazon’s categorization systems. In addition, we provide a baseline to compare new aproaches using these metodologies and resources. Finally, we have created a proof of concept, in the form of a gift wizard, that, from one sentence, word or term, and by using deep learning techniques, make 3 steps. i) Offers DBpedia topics, as a con- text, according with the given input. ii) With selected contexts topics, filter Amazon Books Store categories according with our created rela- tional map. iii) Give the categories that have books with information so close to the input and the access to that category on Amazon. Resumen El paradigma del comercio electrónico ha cambiado por completo el mundo, globalizando el impacto de las empresas y permitiendo la crea- ción de nuevos tipos de negocios con presencia, exclusivamente, en el mundo digital. Teniendo en cuenta que la publicidad es una de las for- mas más lucrativas de negocio, principalmente la publicidad en línea, también se ha convertido en un diferenciador y herramienta necesaria para la mayoría de las organizaciones para dar a conocer sus servicios y productos. Uno de los canales de publicidad que ha ido en aumento es Internet. El número de anuncios en este medio ha crecido de manera impresionante. La razón es simple, el uso de Internet es barato y permite llegar fácilmen- te a millones de personas todos los días. Desafortunadamente, el anuncio perfecto puede no ser enviado al o a los usuarios más receptivos si no se han tomado las preferencias del usuario en cuenta. Por otra parte, con el crecimiento de las redes sociales, la era de los te- léfonos inteligentes y el auge del paradigma “Big Data”, los sistemas de recuperación de información (RI) han florecido explotando el análisis y la extracción de conclusiones a partir de una gran cantidad de datos. Es- tos datos están disponibles libre y gratuitamente en Internet, sobre todo información personal de los usuarios. Algunas empresas recopilan estos tipos de datos para crear perfiles basados en las preferencias, comporta- miento o interacciones de los usuarios para ofrecerles anuncios o incluso para vender directamente a otras empresas esta información. Siendo el objetivo “conocer” a los usuarios, estos sistemas de RI reúnen la mayor cantidad de información posible acerca de los objetivos, para generar perfiles basados en los datos generados en una ventana tempo- ral muy amplia. Aunque es viable y óptima la creación de perfiles muy detallados de usuarios, existe un gran problema de obsolescencia si el peso de las interacciones en tiempo real no se tiene en cuenta. Debido a que uno de los principales objetivos de la generación de perfiles de usuario, es enviar anuncios dirigidos, al no ser capaces de dirigirse con éxito a las necesidades actuales que los usuarios reclaman, la mayoría de los sistemas desembocan a un problema de SPAM (es decir, hace que los usuarios consideren el mensaje como no deseado). Una solución para obtener un perfil de usuario más actualizado reside en un sistema de comunicación relativamente antiguo, el servicio de mensa- jes cortos (SMS). Este sistema se ha modernizado y actualmente es más popular en su adaptación a las nuevas tecnologías. Ahora se conocen como sistemas de mensajería instantánea (MI). Algunos ejemplos de es- tos sistemas son WhatsApp, Telegrama, Facebook Messenger, Hangouts, Telegram o Line. Estos sistemas, a pesar de no tener una limitación en cuanto a la longitud de interacción, se utilizan comúnmente en forma de diálogo, es decir, utilizando frases cortas. Esas interacciones repre- sentan una importante fuente de datos actualizada sobre los usuarios. El problema es que conllevan una desventaja importante, la dificultad para interpretar las conversaciones debido al insuficiente contexto sobre cada interacción. Por otra parte, el vínculo entre las preferencias del usuario con los da- tos del anuncio es un área que conecta la comercialización o marketing con el procesamiento del lenguaje natural. En la actualidad, este enfo- que genera anuncios más efectivos para los usuarios que los anuncios generados mediante otros enfoques. A la luz de estos antecedentes, en este trabajo se presenta una meto- dología para extraer el contexto de frases cortas, basadas en una nueva taxonomía temática de DBpedia, capaz de ofrecer publicidad en base a una taxonomía de las categorías de libros existentes en la tienda on-line de libros de Amazon. También se ha creado un recurso (llamado mapa) que une las categorías de la tienda de libros de Amazon con las temá- ticas o “topics” de los artículos que contiene DBpedia. Además, se han creado dos nuevos conjuntos de datos que contienen frases cortas eti- quetadas. La primera utiliza las temáticas de DBpedia para vincular las frases con su contexto, y el segundo utiliza las categorías de la tienda de libros de Amazon para vincular las frases con los posibles productos sugerentes.