Pilar 02 · Data Blog

Modern Data Stack en 2026: qué sobrevivió, qué murió, qué se volvió commodity

El término Modern Data Stack fue inventado en 2017 como marketing de una combinación específica de herramientas: warehouse cloud (Snowflake, BigQuery, Redshift), ELT (Fivetran, Stitch), transformación en SQL (dbt), BI moderno (Looker, Mode), reverse ETL (Hightouch, Census). En 2021, ese arreglo era la vanguardia. En 2026, tres de esas capas se volvieron commodity, una está muriendo silenciosamente, y una sobrevivió como tesis técnica — no como rótulo de mercado.

Este texto hace la lectura crítica: qué sobró de hecho, qué fue reabsorbido por los propios warehouses, y qué quedó en el marketing de los proveedores mientras la arquitectura cambió. Quien está montando stack de datos en 2026 no compra Modern Data Stack — compra piezas, y el criterio debería ser técnico, no de tendencia.

Qué sobrevivió (y por qué)

Tres cosas resistieron la prueba de mercado.

Warehouse separado del banco transaccional. La tesis central — "OLAP no vive en OLTP" — venció. Toda operación seria de datos en 2026 tiene warehouse dedicado (Snowflake, BigQuery, Databricks SQL, Redshift, Synapse). Ya no es Modern Data Stack; es el default arquitectónico. Quien aún corre BI directo en el Postgres de producción está perdiendo dinero en performance, contención, y costo cognitivo del equipo.

Transformación como código versionado. dbt probó que SQL versionado en Git, con tests, lineage automático y documentación generada, es superior a Pentaho/Informatica/SSIS clickeables. En 2026, dbt no es la única herramienta — SQLMesh, Coalesce, y los propios warehouses (Databricks Workflows, Snowflake Dynamic Tables) compiten. Pero el enfoque (transformación versionada como código) es canónico. El truco siempre fue documentación, no modelado — y eso el mercado finalmente entendió.

Capa semántica. Aquí mora la única pieza con tesis viva en 2026. dbt Semantic Layer, Cube, MetricFlow, dbt mesh — todos intentan resolver el mismo problema: "¿cuál es la definición canónica de 'cliente activo' que sales, marketing y finance usan?". La respuesta no puede estar en Looker, Tableau y la hoja del CFO al mismo tiempo. La capa semántica es la única invención genuinamente nueva de la década — y la única donde vale invertir pensamiento arquitectónico serio en 2026.

Qué murió (silenciosamente)

Categorías enteras se evaporaron, y el mercado no hizo velorio.

Reverse ETL como categoría aislada. En 2022, Hightouch y Census eran darlings — operacionalizar datos del warehouse de vuelta en sistemas operacionales (CRM, marketing, finance). En 2026, la función existe pero la categoría está disuelta. Salesforce Data Cloud absorbió la parte de CRM. Customer.io, Braze e Iterable absorbieron la parte de marketing. Quien aún usa reverse ETL standalone está generalmente en arquitectura legacy donde Salesforce no llegó — o donde el equipo de datos no habla con el equipo de producto.

ETL clásico empaquetado. Talend, Informatica PowerCenter, IBM DataStage — salieron del mainstream a nichos específicos. Empresas con data lake on-premises pesado aún usan, pero ningún proyecto nuevo en 2026 inicia con ETL clásico. ELT venció al ETL en arquitectura mainstream, y lo que era ETL se volvió o ELT o procesamiento stream específico.

Data catalog standalone. Alation, Collibra y similares sobrevivieron como producto, pero la tesis de "una herramienta de catálogo separada para documentar todo" perdió. En 2026, descubrimiento de datos ocurre principalmente dentro del warehouse (Snowflake Horizon, Databricks Unity Catalog, BigQuery Dataplex) o vía lineage automático del dbt. Data catalog que nadie usa describe la regla, no la excepción.

Qué se volvió commodity

Tres capas sufrieron compresión de margen brutal y perdieron diferenciación.

ELT. Fivetran, Stitch, Airbyte, Meltano — hacen esencialmente lo mismo. Catálogo de conectores idéntico (Salesforce, HubSpot, Postgres, Stripe), precio cayó ~60% desde 2022, y la diferencia técnica entre opciones pagas y self-hosted (Airbyte/Meltano) está en soporte y gestión, no en capacidad. En 2026, elegir ELT es ejercicio de TCO, no de arquitectura. Quien aún compara Fivetran vs Stitch como decisión estratégica está tres años atrasado.

Warehouse cloud. Snowflake, BigQuery, Databricks SQL, Redshift están en paridad competitiva amplia. Performance comparable, precio comparable, ecosistema comparable. La elección en 2026 casi siempre es por contexto: ¿ya es cliente Azure? Synapse o Databricks. ¿Ya es Google Cloud? BigQuery. ¿Ya tiene Salesforce + AWS? Snowflake. El comparativo real es más sobre fit organizacional que técnica.

BI moderno. Looker, Tableau, Power BI, Metabase, Sigma — todos sirven. Looker tiene LookML (ventaja en capa semántica), Tableau tiene flexibilidad visual, Power BI tiene incentivo de Microsoft licensing, Metabase tiene open-source. Decisión es organizacional: ¿qué herramienta el equipo logra operar bien? Ya no hay "BI moderno" como categoría diferenciada — hay "BI que todo el mundo usa".

Qué está pasando de hecho en 2026

Cinco movimientos arquitectónicos reales — ya no relacionados al rótulo Modern Data Stack, pero que definen stack de datos serio hoy.

  1. Lakehouse se volvió default. Databricks consolidó la tesis (storage abierto + SQL/Spark/ML en el mismo lugar). Snowflake respondió (Iceberg). BigQuery respondió (BigLake). En 2026, separar "warehouse" de "lake" es arquitectura legacy — lo que no significa abandonar modelado dimensional bien hecho sobre el lakehouse; al contrario.
  2. Capa semántica es donde está la disputa. dbt Semantic Layer, Cube, MetricFlow disputan por ser el "MetricStore" canónico. Sin ella, métricas pelean entre BI tools. Con ella, un motor más de gobierno que afecta producto.
  3. Real-time dejó de ser categoría aparte. Materialize, RisingWave, ClickHouse e Iceberg streaming redujeron el gap entre batch y stream. En 2026, elegir batch o stream es decisión de SLA, no de stack diferente.
  4. Gobierno se volvió capa del warehouse. Unity Catalog (Databricks), Horizon (Snowflake), Dataplex (BigQuery) absorbieron parte de la función de catálogo y lineage. Herramienta separada sólo sobrevive en casos complejos multi-warehouse.
  5. IA generativa se volvió consumidor de datos, no sustituto. GPT/Claude/Gemini para análisis ad-hoc, generación de SQL natural, descubrimiento de insight. Ese es el caso donde la capa semántica queda aún más crítica — LLM necesita definición canónica para no inventar métrica.

Modern Data Stack era marca. Stack de datos en 2026 es arquitectura. Quien aún vende la etiqueta está vendiendo 2021.

Cómo decidir el stack en 2026

Cinco preguntas que orientan la decisión.

  1. ¿Dónde ya vive el resto de la operación? Cloud principal define warehouse natural. No pelees contra gravedad organizacional.
  2. ¿Cuál es el volumen real, no proyectado? Dimensionar para 10TB cuando se tiene 200GB es desperdicio; lo contrario también.
  3. ¿El equipo tiene músculo de operación continua? Lakehouse más sofisticado (Databricks con Spark custom) exige squad dedicado; Snowflake puro exige menos.
  4. ¿La capa semántica es tratada como ciudadano de primera clase? Si no, el stack va a entregar dashboards conflictivos en 18 meses, independiente de las otras elecciones.
  5. ¿Quién responde por gobierno en 2 años? Persona, no herramienta. Sin dueño claro, cualquier stack se vuelve pantano en 24 meses.

Qué NO comprar en 2026

Tres cosas que aún aparecen en pitch de proveedor y no tiene sentido invertir:

Reverse ETL standalone, excepto en arquitectura legacy sin Salesforce/HubSpot/Customer.io.

Data catalog separado, excepto en ambiente multi-cloud con varios warehouses (raro). El catálogo del warehouse cubre 80% del uso real.

"Consultoría de Modern Data Stack" que vende la etiqueta. En 2026, o el consultor entiende la arquitectura técnica pieza por pieza, o está vendiendo marca muerta.

Quien monta stack de datos en 2026 elige por el encaje organizacional, costo total y capacidad de operación continua. El término Modern Data Stack puede aparecer en el slide del pitch, pero la decisión sucede un nivel abajo — y quien decide bien en ese nivel abajo entrega proyecto que vinga; quien compra el slide entrega proyecto que se vuelve un item más en el catálogo de herramientas pagas y subutilizadas.

Continuar la conversación

¿Quieres discutir este tema con un socio?

Diagnóstico inicial sin compromiso. Hacemos una primera lectura de tu escenario en una semana y devolvemos un informe.

Hablar con un socio