Conversación con Alejo Buxeres
Mientras repasaba tu trayectoria, me he fijado que estudiaste Telecomunicaciones pero que los primeros pasos de tu carrera profesional fueron como Software Engineer. Y después, con el paso de los años, te fuiste adentrando en el mundo de Data & Analytics. Me gustaría entender cómo fue esa evolución y en qué momento viste claro que el mundo del Dato era tu vocación.
Fue en everis, al cabo de 2 años de estar ahí, cuando empezó a surgir todo el boom de las tecnologías big data (Hadoop principalmente). Tenía compañeros que estaban empezando a hacer pruebas de concepto en otros clientes y manifesté mi interés por ello. Realicé un par de certificaciones al respecto (Cloudera y MongoDB) y se me ofreció llevar el día a día de un centro de excelencia en Big Data (de reciente creación).
Con el tiempo me he dado cuenta que la combinación de tecnología con datos me apasiona mucho. Tengo un perfil muy híbrido, con capacidad tanto de profundizar en aspectos tecnológicos como de tener visión de negocio. Y eso en el mundo del data es muy necesario.
Y desde ese primer momento en el que se despierta tu pasión por el dato hasta ahora ¿qué cambios dirías que ha vivido el campo de Data & Analytics? Estoy pensando en aquellos cambios relacionados con plataformas, procesos, modelos, etc
Ha pasado de ser el clásico Business Intelligence, con plataformas on premise y procesos tipo waterfall, a ser Data & Analytics. Ahora casi todas las soluciones están basadas en cloud, se trabaja de forma totalmente ágil y abarca mucho más allá que el análisis puramente descriptivo.
En todo estos años, has tenido por delante retos formidables, como por ejemplo ser responsable del buen funcionamiento de Datawarehouses de gran envergadura. ¿Me podrías decir cuáles son las tres reglas de oro para que un DataWarehouse cumpla las necesidades de negocio? Si me permites, me encantaría que me dieras detalles y no solo reflexiones generales
Diría que hay que huir de esa fiebre por ingestar todo dato que se tercie, sino que al revés: a partir de casos de uso identificar las fuentes de datos necesarias. Y tener muy claros los objetivos de negocio a priori.
Por otro lado, en cuanto al modelado, daría 3 sugerencias:
Definir un modelo agnóstico de las fuentes de datos y de las peculiaridades de los consumidores.
Utilizar una técnica de modelado probada, como Kimball y diferenciar entre el modelado dimensional global y los marts departamentales. No sofisticar demasiado el modelado, sobre todo si usas un data warehouse moderno.
Documentar muy bien el modelo de datos y generar el linaje facilitará mucho el consumo del mismo.
¿Y cuáles son las tres cosas que nunca hay que hacer cuando estás construyendo un Data Warehouse?
No tener en cuenta desde el principio aspectos como la seguridad o privacidad.
No tener en cuenta desde el principio cómo vamos a validar y corregir la calidad del dato.
Intentar definir todo el modelo de datos a priori. Debemos hacer un enfoque incremental.
Termina esta frase. Un buen equipo de Business Intelligence es aquel que….
Ayuda a las diferentes áreas de negocio a tomar mejores decisiones. No aquel que genera muchos dashboards, por muy bonitos que sean. Esto implica estar muy alineados con ellos, entender muy bien sus necesidades y acompañarlos en toda la jornada.
¿Cuál es el Dataset más complejo de gestionar al que te has tenido que enfrentar? ¿Dónde radicaba esa complejidad?
Recuerdo algunos ejemplos:
Datasets con datos provenientes de campos de texto abierto o con un nivel de calidad muy bajo como las respuestas de encuestas.
Datasets que combinan muchas fuentes diferentes, como un funnel de captación (datos de la plataforma de anuncios, landing, emails, registro)
Datasets de datos semiestructurados como geolocalización
Con la irrupción de los modelos de Deep Learning, el volumen de datos que se maneja es mayor y conlleva mayor complejidad. ¿Cómo se traducen estos cambios en términos de Data Warehouse? ¿Y en términos de Business Intelligence?
Hemos pasado de data warehouses con capacidades muy limitadas, mayoritariamente on-premise y dónde solo se podía escalar verticalmente a sistemas distribuidos en la nube, totalmente elásticos y administrados. La separación entre el cómputo y el almacenamiento ha sido un punto de inflexión.
A nivel de business intelligence hemos pasado de herramientas complejas, con muchos pasos manuales y muy centradas en IT a herramientas muy sencillas de utilizar, ágiles y con capacidades de analítica aumentada.
Recientemente entrevisté a Pau Rué (Director of Data en Typeform) y me decía que los nuevos stack de datos basados en Data Lakes y Cloud Data Warehouses (BigQuery, Redshift) difieren en los procedimientos clásicos de ETL para dar lugar a las ELT, en las que los datos en crudo son extraídos y directamente cargados en el Data Lake/Warehouse. ¿Cuál es tu opinión al respecto?
Así es como debería definirse cualquier plataforma de datos a día de hoy. Con la irrupción de los data warehouse modernos no tiene sentido procesar datos fuera del mismo ya que desaprovechamos todo su potencial. Y todo el mundo de la transformación del dato está muy basado en SQL a día de hoy. Es por eso que proyectos como DBT están teniendo tanto éxito.
En tu día a día en Wallbox ¿qué tipos de datos tenéis que gestionar? ¿Cuál es la parte más compleja de este trabajo?
Principalmente hay datos de muchas fuentes tipo SaaS y luego de nuestro software, principalmente la telemetría que viene de los cargadores: nuestros cargadores se pueden conectar a internet y, en tal caso, nos envían datos de consumo, temperatura, interacción del usuario y parámetros de configuración cada 30 segundos.
La parte más compleja del trabajo es, por un lado, el número de fuentes involucradas y la calidad de los datos que generan. Por otro lado, el creciente volumen de datos proveniente de nuestros cargadores. Debemos ser capaces de manejar todos esos eventos en tiempo real para ofrecer servicios como mantenimiento predictivo o recomendación de hábitos de consumo energético.
¿Y qué herramientas son las que utilizais tú y tu equipo en el día a día?
Utilizamos un data warehouse moderno como Snowflake, un SaaS para la ingesta automatizada llamado Fivetran, DBT como herramienta de modelado de datos, basada en Python y SQL, Airflow para la orquestación y Tableau como herramienta de reporting.
Hablemos ahora de las personas. ¿Qué perfiles son necesarios para tener un buen equipo de Data & Analytics?
A día de hoy ha irrumpido el perfil Analytics Engineer, que está a caballo entre el Data engineer y el Data Analyst. Muy centrado en el modelado del dato y el control de la calidad del mismo. Típicamente se suele especializar en uno o varios dominios.
Aparte de este perfil, Data Engineers, Data Analysts y Data Scientists. Y cada vez más hay la necesidad de tratar los datos como un producto, por lo que se necesita un perfil como Data Product Owner o Data Product Manager.
¿Y cuál es la clave para que surja la magia y que sea un equipo de alto rendimiento?
Diría que tener un proyecto motivante, con retos y dónde cada uno de ellos pueda desarrollarse. Creando una cultura de colaboración, sin acusaciones, y con unos objetivos comunes.
Por otro lado, con un estilo de liderazgo basado en la confianza y la exigencia, siendo honestos y escuchando a las personas.
Por último intentando combinar los perfiles de manera que se complementen y saquen lo mejor de sí mismos.
Si miramos hacia el futuro ¿qué grandes podemos esperar en los próximos 5-10 años en el mundo de Data & Analytics?
Se ha evolucionado mucho en cuanto a facilidad para ingestar, almacenar y procesar grandes y variados volúmenes de datos a gran velocidad. Ahora el reto está en conseguir llegar de forma más o menos fácil a ese nivel tan deseado de self-service donde todo dato esté curado, documentado y accesible.
Por otro lado, debemos avanzar mucho aún en facilitar el despliegue, monitorización y mejora continua de modelos de machine learning y su aplicación en todas las áreas de la compañía.
Y por último también el seguir pasando de una analítica enfocada puramente a la mejora en la toma de decisiones a una analítica operativa donde el dato enriquece los sistemas transaccionales y ayuda a automatizar acciones.
Recientemente entrevisté a Eli Vivas (co-fundadora de StoryData) y le pedí que hiciera una pregunta para la siguiente persona a entrevistar. Su pregunta fue: ¿Te imaginabas que trabajarías en lo que trabajas hoy en día hace diez años?
La verdad es que no, dado que estaba muy centrado en el mundo de la ingeniería del software y toda esta eclosión del mundo del dato aún ni se olía.
Y tú ¿qué pregunta le harías a la próxima persona entrevistada?
¿Qué estrategias planteas para resolver los principales escollos a la hora de implementar una cultura data-driven en una compañía?