El núcleo de la integración empresarial.

Cómo la tecnología ETL ha evolucionado hasta la Plataforma de Integración de Datos actual y cuál es su papel en la empresa.


Autor: Albert Collado, Director de Innovación y Tecnología de Powerdata Ibérica



Las tecnologías de Extracción, Transformación y Carga de datos (ETL en sus siglas en inglés) ya no son exclusivas a los procesos asociados a los almacenes de datos corporativos o DataWarehousing. Así, estas tecnologías están evolucionando hacia un término más comprensible y descriptivo que es la Integración de Datos ( o DI).

La mayoría de profesionales TI y los responsables del negocio asocian las plataformas ETL con la recogida, transformación y el traslado de datos empresariales desde diferentes aplicaciones hasta una base de datos relacional, el data warehouse, para los procesos de consulta, reporting y análisis.

Los profesionales que no estén siguiendo de cerca el mercado de Integración de Datos (DI), posiblemente no están familiarizados con el avance radical de este tipo de plataformas, ni tampoco conocen la manera en la que sus nuevas capacidades le están convirtiendo en una suite única para responder a prioridades para las organizaciones, como el aprovechamiento y la explotación de filas de datos para obtener una ventaja competitiva real.

Muchos Directores de Información tienen a la Integración de Datos como un punto de referencia que no se puede perder de vista. Un estudio elaborado en 2004 por IDC entre 150 grandes organizaciones diagnosticó que cada empresa tenía previstas, como media, 26 iniciativas centradas en los datos para los próximos dos años. Estos proyectos son variados y ambiciosos, más allá del data warehousing y del Business Intelligence (BI), incluyendo la Monitorización de la Actividad Empresarial en tiempo real (Business Activity Monitoring o BAM), la migración de información desde sistemas heredados, o la sincronización, replicación y consolidación de datos corporativos.

Los motores del negocio para abordar estas iniciativas están claros: mayores ingresos, reducción de costes, negocios en tiempo real, visibilidad a lo largo de toda la empresa y conformidad con nuevas normativas y regulaciones. Lo que no siempre ha quedado tan claro para las empresas es qué tecnología es capaz de satisfacer estos requisitos.

A pesar de su conciencia sobre las ventajas de los proyectos centrados en los datos empresariales, para las organizaciones resulta difícil elegir la solución más idónea. Las empresas deben afrontar decisiones tecnológicas y de negocio en relación con la Integración de Datos, servicios Web, EAI (Enterprise Application Integration) y BAM (Business Activity Monitoring) en tiempo real –y en la manera de en la que todas estas plataformas pueden caber y funcionar de manera conjunta. Muchas de estas empresas también son conscientes del riesgo que supone implantar soluciones independientes que pueden generar costosas redundancias e ineficiencias.

Aquí es donde aparece el software de Integración de Datos. Comparado con las herramientas ETL de mediados de los `90, las actuales plataformas DI están dotadas de nuevas y robustas funcionalidades y de flexibilidad, actuando como el núcleo de la integración para toda la empresa.

A continuación, analizaremos cómo las nuevas funcionalidades y tecnologías de las plataformas DI las han llevado mucho más allá de su papel original en el data warehousing. Exploraremos, además, cómo la tecnología de Integración de Datos se compara con y puede llegar a complementar los complejos sistemas EAI enfocados en los procesos. Exploremos cinco puntos principales:

- Liberación de datos a través toda la empresa: cualquier fuente, cualquier destino, en cualquier momento.

- Interoperabilidad de los servicios Web: enriquecimiento de datos para la Arquitectura Orientada a Servicios (Service-Oriented Architecture o SOA).

- Catalizador para el negocio en tiempo real: captura, transformación y suministro sin tiempo de espera.

- Fusión de datos y procesos: cómo las tecnologías DI y EAI se comparan, contrastan y convergen.

- Capa semántica: base de meta-datos para la visibilidad, auditoría y veracidad de los datos.





Liberación de los datos a través de toda la empresa


Supongamos que una empresa contrate un equipo de programadores de primer orden y les proporcione las mejores herramientas para el modelado de datos, escrituras Perl, Conectividad de Bases de Datos Abiertas (ODBC), SQL, código y otras tecnologías. Después de varios meses de pruebas, errores y costes asombrosos, este equipo tendrá la posibilidad de realizar la ingeniería necesaria para conectar los datos en cualquier aplicación y sistema de la compañía.

Hace años, esta codificación a medida fuertemente enraizada era común simplemente porque las herramientas para la automatización y la racionalización de Integración de Datos entre sistemas complejos no existían. La buena noticia hoy es que las plataformas DI han madurado recientemente con un amplio surtido de conectividad nativa para prácticamente cualquier fuente de datos empresariales:

- Datos relacionales, mainframe y archivos planos de datos
- Aplicaciones empaquetadas (Siebel, SAP, Oracle, etc.)
- Sistemas analíticos (SAP BW, SAS, Informatica, etc.)
- Meta-datos a través toda la empresa.
- Web logs, clicstream y datos de Identificación por Radio Frecuencia (RFID)
- Sistemas EAI y de mensajería (web-Methods, IBM WebSphere MQ, TIBCO, etc.)
- Estructuras jerárquicas (archivos planos complejos, etc.)


La ventaja es obvia. Los programadores en las compañías no necesitan codificar manualmente todas las líneas. La mayoría de la conectividad que las empresas necesitan está pre-construida y es reutilizable, con un importante ahorro en tiempos y costes.

Las plataformas DI han evolucionado de manera similar hasta un acceso de lectura/escritura a múltiples aplicaciones. Esto se traduce en la captura, transformación y actualizaciones de datos entre cualquier combinación de fuentes y targets. Los datos se recogen on-the-fly por el motor de eCommerce de la empresa y llevan hasta los sistemas del Plan Contable, de inventario o de logística, al igual que hasta el DataWarehouse. La información de las aplicaciones CRM se suministra a los agentes del centro de llamada, nutriéndoles de información en tiempo real sobre los clientes.

Lejos del antiguo transporte de los datos desde las aplicaciones hasta el Warehouse en modo batch, las actuales plataformas DI están siendo desplegadas para cualquier replicación y transformación de datos a lo largo de múltiples áreas funcionales –financiera, CRM, cadena de suministro o comercio electrónico, entre otras.

En un segundo plano, cualquier plataforma DI que merezca la pena pone a buen recaudo también la ejecución de las importantes tareas de perfilado, limpieza y seguridad de los datos. El perfilado va a determinar el formato y la calidad de los datos antes de su extracción. La limpieza resolverá las cuestiones de integridad de los datos mediante el análisis sintáctico, la estandarización de direcciones y la combinación.

De forma notable, las plataformas DI responden a la llamada de una seguridad empresarial mejorada con características como los 128-bit, encriptación en tránsito, transporte Secure Sockets Layer (SSL), y protocolo de acceso a los datos de poco peso (LDAP) para la autentificación y la autorización. La principal ventaja de todo esto es que, de este modo, las empresas no necesitan desplegar todo un montón de soluciones best-of-breed.



Interoperabilidad de los servicios Web

Otra reciente mejora de las plataformas DI es el soporte para los protocolos de servicios Web como SOAP, Universal Description, Discovery e Integration (UDDI), lenguaje de descripción de servicios web (WSDL) y XML. Este soporte suministra tres capacidades clave:

- Mejora los servicios Web con una compatibilidad al nivel de los datos, entre aplicaciones acopladas libremente.
- Facilita la incorporación de la tecnología DI a sistemas heterogéneos y legacy.
- Sienta las bases para unos procesos de BI y BAM en tiempo real.


Hasta la fecha, la mayor parte de la historia de los servicios Web se ha centrado en la interoperabilidad de alto nivel y de aplicación a aplicación y en la facilidad de desarrollo en base a estándares. Ha quedado atrás, sin embargo, la compatibilidad granular al nivel de los datos – o un nivel fundacional compartido – entre las aplicaciones.

Una plataforma DI construida sobre SOA permite al departamento TI disfrutar de las ventajas de los servicios compartidos para múltiples tareas en sus esfuerzos por ampliar la integración. Por ejemplo, una plataforma DI capturará los datos de un motor de comercio electrónico de Oracle y los propagará a SAP Financials, Siebel CRM y el data warehouse de la empresa, transmitiendo una alerta Web al responsable correspondiente.

Por otra parte, el soporte de una plataforma DI para los estándares de servicios Web significa que se pueden grabar los procesos DI prácticamente en cualquier sistema –con la mínima inversión en desarrollo e integración. La convergencia de los servicios Web y la tecnología DI promete proporcionar espectaculares dividendos en BI y BAM en tiempo real. Este es el principal paso hacia la información precisa, accesible a tiempo y preparada para la toma de decisiones.


Catalizador para el negocio en tiempo real


Hace tiempo, el traslado de datos entre sistemas significaba trabajos de horas y horas en modo batch, que se llevaban a cabo una vez por semana, normalmente el sábado por la noche. Las cosas han cambiado. La primera generación de herramientas ETL abrió el camino al alto rendimiento de los actuales motores DI. Las ventanas Batch son mucho menores que hace años, gracias a nuevas tecnologías de compresión, al paralelismo y la partición avanzada, a la captura en memoria y la captura de datos cambiados (que recoge únicamente los datos que han sufrido algún cambio desde la última carga).

Quizás lo más interesante sea la incorporación de capacidades para la captura, transformación y traslado de datos en tiempo real. Las plataformas DI líderes están equipadas con “agentes de escucha” que detectan datos modificados, ejecutan transformaciones complejas sobre la marcha y suministran una información unificada hasta el desktop del responsable en cuestión.

Con capacidades de tiempo real, las plataformas DI sientan las bases para un rango de aplicaciones desde RFID hasta BAM. El acceso y análisis de la información en tiempo real es la premisa fundamental de BAM: mejorando el DataWarehousing y sus análisis de datos históricos en “fracciones de tiempo”. Para BAM, una plataforma DI suministra:

- Acceso inmediato, agregación y suministro de información dinámica desde múltiples fuentes.
- Métricas de rendimiento, gestión, alerta y análisis.
- Visibilidad en el momento oportuno dentro de los sistemas sensibles al tiempo (inventario, ventas, finanzas).

En particular, BAM presenta una oportunidad única para que las organizaciones capitalicen las dos tecnologías convergentes de DI y EAI.


Fusión de datos y procesos

Muchos profesionales TI, como es normal, están luchando con controvertidas cuestiones de arquitectura en sus estrategias empresariales de integración, especialmente en las iniciativas en tiempo real como BAM. ¿Necesitamos un sistema EAI? ¿Podemos ampliar nuestras plataformas DI? ¿Necesitamos utilizar ambas plataformas? ¿Cuáles son las diferencias?

Al nivel más alto, el foco de las plataformas EAI es la integración y sincronización orientada a procesos y transacciones. Las soluciones EAI de fabricantes como webMethods, IBM (WebSphere MQ), TIBCO y otros utilizan generalmente Message-Oriented Middleware (MOM) para las comunicaciones sincronizadas y no sincronizadas entre aplicaciones distribuidas.

Los agentes middleware EAI envían mensajes entre aplicaciones y pueden desencadenar acciones complejas y multi-direccionales como la aceptación de órdenes de Business-to-Business (B2B), impulsar el funcionamiento de la cadena de suministro, facturar a una cuenta de cliente y otras actividades esenciales del negocio.

Generalmente, EAI proporciona una funcionalidad que DI no proporciona, y viceversa. Cada solución tiene sus propios puntos fuertes y debilidades que las organizaciones deben examinar atentamente cuando tracen sus roadmaps de arquitectura. En la Figura 1 se aprecian algunas diferencias clave entre ambas tecnologías.

Entonces, ¿qué ocurre si ambas plataformas se unen en las TI de la empresa? Con una elección de la plataforma con conocimiento de causa, la alineación estratégica de los recursos TI con los objetivos de negocio y una ingeniería inteligente, la empresa tiene todos los ingredientes para un entorno BAM sofisticado y en tiempo real, capaz de capitalizar lo mejor de las tecnologías DI y EAI.

La ventaja clave no es exactamente disponer de datos en tiempo real, sino disponer de datos comprensibles. Es la visibilidad bajo demanda generada por la fusión sobre la marcha de datos con información histórica proveniente de sistemas CRM, aplicaciones para la gestión de la cadena de suministro y almacenes de datos.

Dentro de este escenario, una plataforma DI trata al sistema EAI como otra fuente de datos. Captura y transforma la información transaccional y de proceso desde una cola de mensaje EAI, la agregar a los datos históricos y la hace disponible para el acceso y análisis de negocio, o como una alerta para un cuadro de control.

De forma simbiótica, una plataforma DI existe como un suscriptor de una arquitectura de mensajería EAI para la publicación/suscripción. El agente central notifica a la plataforma DI un evento (una retirada de un cliente o una orden B2B, por ejemplo), desencadenando actualizaciones en el nivel de los datos para los objetivos seleccionados.


Capa semántica

Los meta datos, o los “datos sobre datos” han sido durante mucho tiempo reconocidos como importantes, al menos en teoría, para la gestión de los recursos de información de una organización. La realidad es que pocas organizaciones han desplegado sistemas maduros para la gestión de meta-datos, siendo las razones principales para ello el que:

- Las herramientas de meta-datos eran relativamente primitivas y muy técnicas.
- Los estándares todavía estaban emergiendo.
- Los meta datos eran considerados menos importantes que otras iniciativas de datos.

Esto está cambiando rápidamente. Dar sentido a una profusión de datos y aplicaciones y cumplir con los nuevos requisitos normativos como los de Sarbanes-Oxley ha incrementado las apuestas de las organizaciones para localizar, comprender y garantizar la veracidad de los meta datos. Los meta datos conservan las versiones de los datos, sus procedencias y los cambios durante su propagación a través de sistemas como una “capa semántica” fácilmente comprensible en un lenguaje no técnico.

Hasta diversos niveles, las plataformas DI siempre han soportado la gestión de meta-datos. Significativas mejoras recientes han consolidado el reconocimiento del software DI como la principal plataforma para la gestión de meta-datos –una plataforma con un repositorio único y abierto, y con capacidades muy superiores a otras tecnologías de integración:

- La captura de meta-datos dinámicos y la agregación a lo largo de sistemas heterogéneos.
- Consulta, análisis, visualización y alerta basados en Web de meta-datos.
- Adaptadores de meta-datos pre-configurados para la conexión a fuentes (p.e., legacy, archivos planos, herramientas analíticas, XML, etc.).
- Soporte para las principales especificaciones (p.e, Object Management Group Meta-Object Facility, Common Warehouse Model).
- Análisis del impacto de los cambios: localizar los efectos encadenados a lo largo de las fuentes de información.


Las mejoras más recientes en las plataformas DI han permitido dos avances:
- La conectividad pre-configurada, los estándares abiertos y el desarrollo visual GUI facilitan a los programadores diseñar la arquitectura y gestionar los sistemas de meta-datos a lo largo de la empresa.
- Los profesionales TI pueden escudriñar las fuentes de información para mejorar la integridad y consistencia de los datos, eliminar redundancias y afinar eficiencias.

Desde una perspectiva empresarial, se ha hecho realidad la visibilidad a través de todo el sistema y un punto de vista claro hacia el interior de los datos que se requieren para la conformidad con nuevas regulaciones, para informar a los accionistas y para la sana relación con clientes, socios e inversores. El repositorio de meta-datos contiene el completo origen genealógico de la información, ofreciendo una potente herramienta para auditar los datos e incorporarlos a la contabilidad.


Una visión de la empresa centrada en los datos

Hace casi cinco siglos, los académicos de Occidente estaban alborotados. ¿Era la Tierra el centro del sistema solar, como se había creído durante siglos? ¿O lo era el sol, como postulaba el descarado Nicolás Copérnico?

Hoy sabemos que Copérnico estaba en lo cierto. Pero las controversias durante décadas que provocó la publicación de su teoría heliocéntrica en 1514 pueden sugerir una cuestión similar comparándola con los negocios del siglo XXI: ¿Cuál es el centro del sistema solar empresarial?

Desde mi punto de vista, la respuesta está en los datos. Incluso antes de que el primer ordenador fuese un brillo en el ojo de Alan Turing, la suerte de un negocio venía determinada por la gestión y la calidad de sus datos. Un fabricante de acero del siglo XIX no podía obtener beneficios a menos que calibrase los costes versus los ingresos. Aquellas eran fundamentalmente cuestiones de datos.

Por consiguiente, la estrategia de integración empresarial óptima tiene en su núcleo una ingeniería tecnológica explícita para la gestión y la explotación de los datos. Del mismo modo que los volúmenes de datos empresariales continuarán creciendo hasta los terabytes, petabytes e incluso exabytes en las próximas décadas, las plataformas DI ofrecen una interesante elección como núcleo de la integración empresarial.