Base De Datos Como En Un Motor De Búsqueda? Datamatch Enterprise™ Server + API De Data Ladder, Encuentra Los Datos Correctos, Incluso Con Información Incompleta
Total Page:16
File Type:pdf, Size:1020Kb
68 Bridge, St. Suite 307 +1 888-779-6578 [email protected] www.DataLadder.com Suffield, CT 06708 Mantenga sus bases de datos limpias DataMatch Enterprise™ Server + API es un componente diseñado por Data Ladder para la comparación, el formateo de datos y la limpieza de datos de última generación. Entre sus usos más comunes se encuentran la prevención, consulta, deduplicación y fusión / purga de duplicados. La API DataMatch Enterprise™ divide y asigna nombres y direcciones a los casos, genera claves de coincidencia para la coincidencia fonética, genera 3 gramos para una coincidencia aproximada más precisa y registros de coincidencia de calificaciones. El componente ofrece una solución compacta y eficiente a los problemas de calidad de datos y duplicación en cualquier sistema basado en Windows. Alto Rendimiento Rápida Interface y Escalabilidad Implementación Intuitiva Delivers results quickly regardless Proceso acordado con Ejecutar proyectos de big data of size of database los desarrolladores en cuestión de días Robusta Tecnología Perfecta Integración Sincroniza con datos de Emparejamiento con Bases de Datos en tiempo real Encuentre lo que está buscando Opera aparte y enlaza con las Las actualizaciones con la mejor tecnología de bases de datos actuales para instantáneas funcionan depuración y emparejamiento lograr la máxima velocidad y junto con el proceso de del mundo eficiencia como parte de la API emparejamiento Funcionamiento Cargar proyecto seleccionado Correr el proceso de búsqueda Ir a la ventana de configuración Live Search Demo 3.1.13.1 (1.0.7.7) - X Ingresar la palabra buscada Search Criteria Start Settings Victor Search time “Victor”: 120 ms Hide log Live Search Search V Score Data Source Record Company Address City 11/12/2018 2:57:44 PM - Start loading Engine Wrapper Name Name No 0 by project ‘smoke3.1.7.0’ 100.00 Customer Master 1152 Hungry’s Express... 11700 Old Katy Rd hOUSTON 11/12/2018 2:57:44 PM - End loading Engine Wrapper 0 without errors in No0 100.00 Customer Master 1550 Ayala Refrigeratio... 916 E Euclid Ave pHOENIX Load time No0: 9241 ms 95.00 Customer Master 2066 Airbrush Guy & Co 815 S Market St bENTON Loading finished successfully Search Time ‘0ФЛ’: 107 91.90 New Prospect R... 6109 Victor Arcos 417 Jacson St Search Time ‘0ФcЛ’: 76 90.90 New Prospect R... Search Time ‘0ФЛ’: 60 6737 Lcu P.O. BOX 4544 Search Time ‘Jac’: 162 -1 2 89.28 New Prospect R... 6827 Desert Grove P.O. BOX 60352 Search Time ‘Jack’: 137 - 14 Desactivar/Activar las Search Time ‘Jac’: 121 - 12 89.23 6883 Missouri Pub Stat... P.O. BOX 685 opciones de búsqueda New Prospect R... Search Time ‘Vic’: 86 - 10 en vivo 89.20 New Prospect R... 7680 Victoria Logistics P.O. BOX 24119 Search Time ‘Vict’: 103 - 10 Search Time ‘Victo’: 91 - 9 88.57 New Prospect R... 7011 Scenic Hills Realty P.O. BOX 90 Search Time ‘Victor’: 120 - 17 88.00 New Prospect R... 6525 Mc Teer & P.O. BOX 2368 87.50 New Prospect R... 6751 Coliman Pacific P.O. BOX 48 V V V Entonces, ¿qué hace si hay inconsistencias o variaciones en sus datos? Peor aún, ¿qué pasa si hay diferentes errores tanto en una base de datos como en un motor de búsqueda? DataMatch Enterprise™ Server + API de Data Ladder, encuentra los datos correctos, incluso con información incompleta. Nuestros algoritmos pueden encontrar las áreas de similitud sin importar en qué campos se encuentren o o estén los datos alineados. Nuestra plataforma es un enfoque sólido para hacer que los datos imperfectos sean utilizables. Nuestra plataforma puede hacer las conexiones correctas con cualquier tipo de datos estructurados. Desde errores ortográficos hasta redundancias. Nuestra herramienta puede resolver muchos de los problemas comunes que se encuentran en grandes cantidades de datos. DataMatch Enterprise™ Server + API puede manejar muchos de los problemas que comprometen sus sistemas de datos. Nuestro sistema es escalable: incluso con grandes conjuntos de datos, la información se puede analizar con tiempos de respuesta increíblemente rápidos. ¿El resultado? Mayor precisión y menos trabajo manual necesario. Nuestro software se integra directamente con su base de datos, pero funciona de manera independiente y no afecta a ninguna otra aplicación. * Como se vio en 20 estudios independientes diferentes, DataMatch Enterprise™ Server + API, encontró 5-10% más coincidencias que cualquier otro competidor o solución interna. Precisión de Emparejamiento 40K a 4M Compra / 40K Registros 400K Registros Velocidad Registros Costos de Licencia Data Ladder 96% 91% 95% Muy Rápido Bajo IBM Quality Stage 88% 87% 91% Rápido Alto ($250K+) SAS DataFlux 84% 84% 81 % Rápido Alto ($250K+) Nota: Las pruebas anteriores se completaron en los datos de prueba internos (confirmación externa en proceso). Tenga en cuenta que estas pruebas se realizaron utilizando nuestros algoritmos patentados; No se utilizaron resultados algorítmicos preprocesados. Diagramas de Arquitectura API Cliente 1 Cliente 2 Cliente N Cliente 1 Cliente 2 Cliente N 1 Insertar nuevo 1 registro Insertar nuevo registro Back - End 2 Back - End Confirmar Intentar insertar Usar Fuzzy Logic Informar al Back-End si existe 2 7 3 registro en 9 acerca de la singularidad la base de datos del registro Lógica DME Lógica de verificación API de verificación única Activar DB única 6 4 3 Activar Usar Informar al insertar fuzzy 4 8 acerca de logic la unicidad 5 SI ¿El 6 Retroceder la Registro DME existe? Transacción API DB 7 Notificar acerca del duplicado NO ¿El Registro 5 SI existe? 6 Insertar registro en NO la base de datos Hacer la Informar al Back-End transacción 7 acerca de la singularidad del registro Fig 1. Arquitectura del Servidor del Cliente A) DMES API se utiliza como una capa intermedia B) DMES API se llama desde la entre DB y una capa de negocio base de datos activada Vista general Existen dos partes fundamentales en DataMatch _ Live Search Demo 3.1.13.1 (1.0.7.7) X Enterprise™ Server + API: Powered by: Live Search Real Time Duplicate Check Indización de registro Coincidencia de Frontend Search Criteria Use the cache table Use floating tresholds General Fields registro Path: Andersen Submit lastname (90%) Auto Match: 90 Reset Manuel Review: 80 Estos puedes ser usadas en diversos escenarios: Backend Record status: DUPLICATE Score id title firstname lastname company address1 address2 address3 zip date pai Captura de datos incorporando prevención 98.2000001788... 1 Mr Gary Anderssen Mobil Oil Canada 1160-1124 Aviati... Hunstville Alabama 35894 11/13/2008 6:31... 0 duplicada. Database id title firstname lastname company address1 address2 address3 zip date 1 Mr Gary Anderssen Mobil Oil Canada 1160-1124 Aviati... Hunstville Alabama 35894 11/13/2008 6:31... Una sola fuente de datos coincidente 1 Ms Carrie Conrad Intergraph Corpo.. One Madison Ind... Louisville Missouri 64116 8/26/2009 10:37... 1 Mr Ron Olsen Universal Under... 10 Richards Road Boise Idaho 83705 12/4/2009 1:48 ... 1 Mr Carol Lisney Boise Cascade C... 3565 South Owy... Batavia Illinois 60510 7/8/2009 1:53 AM Coincidencia de fuentes de datos cruzadas Definiciones de Emparejamiento La definición de emparejamiento es el conjunto de reglas que aplicamos en los campos para ser ejecutadas en el proceso de emparejamientos. Definición de emparejamientos para un campo que consiste en: Live Search Demo 3.1.13.1 (1.0.7.7) - X Tipo de coincidencia que puede ser difuso o exacto. Antes de hacer cualquiera de esos dos Search Criteria Start Settings (Fuzzy o Exacto) podemos transformar la Victor Search time “Victor”: 120 ms Hide log Live Search Search V Score Data Source Record Company Address City 11/12/2018 2:57:44 PM - Start loading Engine Wrapper entrada a su equivalente fonético: Name Name No 0 by project ‘smoke3.1.7.0’ 100.00 Customer Master 1152 Hungry’s Express... 11700 Old Katy Rd hOUSTON 11/12/2018 2:57:44 PM - End loading Engine Wrapper 0 without errors in No0 100.00 Customer Master 1550 Ayala Refrigeratio... 916 E Euclid Ave pHOENIX Load time No0: 9241 ms - fonética 95.00 Customer Master 2066 Airbrush Guy & Co 815 S Market St bENTON Loading finished successfully Search Time ‘0ФЛ’: 107 91.90 New Prospect R... 6109 Victor Arcos 417 Jacson St Search Time ‘0ФcЛ’: 76 90.90 New Prospect R... Search Time ‘0ФЛ’: 60 Ejemplo: Transformación fonética de las 6737 Lcu P.O. BOX 4544 Search Time ‘Jac’: 162 -1 2 89.28 New Prospect R... 6827 Desert Grove P.O. BOX 60352 Search Time ‘Jack’: 137 - 14 89.23 Search Time ‘Jac’: 121 - 12 New Prospect R... 6883 Missouri Pub Stat... P.O. BOX 685 Search Time ‘Vic’: 86 - 10 palabras Dayton y Deighton es igual. 89.20 New Prospect R... 7680 Victoria Logistics P.O. BOX 24119 Search Time ‘Vict’: 103 - 10 Search Time ‘Victo’: 91 - 9 88.57 New Prospect R... 7011 Scenic Hills Realty P.O. BOX 90 Search Time ‘Victor’: 120 - 17 88.00 New Prospect R... 6525 Mc Teer & P.O. BOX 2368 87.50 New Prospect R... 6751 Coliman Pacific P.O. BOX 48 V V Si la definición de coincidencia es Fuzzy, V debemos aplicar un valor para: - Nivel Define el umbral para el comparador. Si los resultados de la comparación son iguales a más altos que el nivel, la coincidencia se consideraría exitosa. Puntaje de Emparejamiento La puntuación de coincidencia es el valor Live Search Demo 3.1.13.1 (1.0.7.7) - X promedio de todas las puntuaciones de Real Time Search Unique Check Logic Database Connection: ... coincidencia por campos individuales. Si Triggers: Full Name: First Name: cualquier campo tiene un nivel coincidente Last Name: Address: por debajo del nivel, la puntuación completa Treshold Definitely Match: - será 0.