O termo Modern Data Stack foi inventado em 2017 por marketing de uma combinação específica de ferramentas: warehouse cloud (Snowflake, BigQuery, Redshift), ELT (Fivetran, Stitch), transformação em SQL (dbt), BI moderno (Looker, Mode), reverse ETL (Hightouch, Census). Em 2021, esse arranjo era a vanguarda. Em 2026, três dessas camadas viraram commodity, uma está morrendo silenciosamente, e uma sobreviveu como tese técnica — não como rótulo de mercado.
Esse texto faz a leitura crítica: o que sobrou de fato, o que foi reabsorvido pelos próprios warehouses, e o que ficou no marketing dos fornecedores enquanto a arquitetura mudou. Quem está montando stack de dados em 2026 não compra Modern Data Stack — compra peças, e o critério deveria ser técnico, não de tendência.
O que sobreviveu (e por quê)
Três coisas resistiram ao teste de mercado.
Warehouse separado do banco transacional. A tese central — "OLAP não vive no OLTP" — venceu. Toda operação séria de dados em 2026 tem warehouse dedicado (Snowflake, BigQuery, Databricks SQL, Redshift, Synapse). Não é mais Modern Data Stack; é o default arquitetural. Quem ainda roda BI direto no Postgres de produção está perdendo dinheiro em performance, contenção, e custo cognitivo do time.
Transformação como código versionado. dbt provou que SQL versionado em Git, com testes, lineage automático e documentação gerada, é superior a Pentaho/Informatica/SSIS clicaveis. Em 2026, dbt não é mais a única ferramenta — SQLMesh, Coalesce, e os próprios warehouses (Databricks Workflows, Snowflake Dynamic Tables) competem. Mas a abordagem (transformação versionada como código) é canônica. O truque sempre foi documentação, não modelagem — e isso o mercado finalmente entendeu.
Camada semântica. Aqui mora a única peça com tese viva em 2026. dbt Semantic Layer, Cube, MetricFlow, dbt mesh — todos tentam resolver o mesmo problema: "qual é a definição canônica de 'cliente ativo' que sales, marketing e finance usam?". A resposta não pode estar no Looker, no Tableau e na planilha do CFO ao mesmo tempo. A camada semântica é a única invenção genuinamente nova da década — e a única em que vale investir pensamento arquitetural sério em 2026.
O que morreu (silenciosamente)
Algumas categorias inteiras evaporaram, e o mercado não fez velório.
Reverse ETL como categoria isolada. Em 2022, Hightouch e Census eram darlings — operacionalizar dados do warehouse de volta nos sistemas operacionais (CRM, marketing, finance). Em 2026, a função existe mas a categoria está dissolvida. Salesforce Data Cloud absorveu a parte de CRM. Customer.io, Braze e Iterable absorveram a parte de marketing. Quem ainda usa reverse ETL standalone está geralmente em arquitetura legacy onde Salesforce não chegou — ou onde o time de dados não conversa com o time de produto.
ETL clássico empacotado. Talend, Informatica PowerCenter, IBM DataStage — saíram do mainstream pra nichos específicos. Empresas com data lake on-premises pesado ainda usam, mas nenhum projeto novo em 2026 inicia com ETL clássico. ELT venceu o ETL na arquitetura mainstream, e o que era ETL virou ou ELT ou processamento stream específico.
Data catalog standalone. Alation, Collibra e similares sobreviveram como produto, mas a tese de "uma ferramenta de catálogo separada pra documentar tudo" perdeu. Em 2026, descoberta de dados acontece principalmente dentro do warehouse (Snowflake Horizon, Databricks Unity Catalog, BigQuery Dataplex) ou via lineage automático do dbt. Data catalog que ninguém usa descreve a regra, não a exceção.
O que virou commodity
Três camadas sofreram compressão de margem brutal e perderam diferenciação.
ELT. Fivetran, Stitch, Airbyte, Meltano — fazem essencialmente a mesma coisa. Catálogo de conectores idêntico (Salesforce, HubSpot, Postgres, Stripe), preço caiu ~60% desde 2022, e a diferença técnica entre opções pagas e self-hosted (Airbyte/Meltano) está em suporte e gestão, não em capacidade. Em 2026, escolher ELT é exercício de TCO, não de arquitetura. Quem ainda compara Fivetran vs Stitch como decisão estratégica está três anos atrasado.
Warehouse cloud. Snowflake, BigQuery, Databricks SQL, Redshift estão em paridade competitiva ampla. Performance comparável, preço comparável, ecossistema comparável. A escolha em 2026 quase sempre é por contexto: já é cliente Azure? Synapse ou Databricks. Já é Google Cloud? BigQuery. Já tem Salesforce + AWS? Snowflake. O comparativo real é mais sobre fit organizacional que técnica.
BI moderno. Looker, Tableau, Power BI, Metabase, Sigma — todos servem. Looker tem LookML (vantagem na camada semântica), Tableau tem flexibilidade visual, Power BI tem incentivo de Microsoft licensing, Metabase tem open-source. Decisão é organizacional: que ferramenta o time consegue operar bem? Não há mais "BI moderno" como categoria diferenciada — há "BI que todo mundo usa".
O que está acontecendo de fato em 2026
Cinco movimentos arquiteturais reais — não mais relacionados ao rótulo Modern Data Stack, mas que definem stack de dados sério hoje.
- Lakehouse virou default. Databricks consolidou a tese (storage aberto + SQL/Spark/ML no mesmo lugar). Snowflake respondeu (Iceberg). BigQuery respondeu (BigLake). Em 2026, separar "warehouse" de "lake" é arquitetura legacy — o que não significa abandonar modelagem dimensional bem feita em cima do lakehouse; pelo contrário.
- Camada semântica é onde a disputa está. dbt Semantic Layer, Cube, MetricFlow disputam por ser o "MetricStore" canônico. Sem ela, métricas brigam entre BI tools. Com ela, mais um motor de governança que afeta produto.
- Real-time deixou de ser categoria à parte. Materialize, RisingWave, ClickHouse e Iceberg streaming reduziram o gap entre batch e stream. Em 2026, escolher batch ou stream é decisão de SLA, não de stack diferente.
- Governança virou camada do warehouse. Unity Catalog (Databricks), Horizon (Snowflake), Dataplex (BigQuery) absorveram parte da função de catálogo e lineage. Ferramenta separada só sobrevive em casos complexos multi-warehouse.
- IA generativa virou consumidor de dados, não substituto. GPT/Claude/Gemini pra análise ad-hoc, geração de SQL natural, descoberta de insight. Esse é o caso onde a camada semântica fica ainda mais crítica — LLM precisa de definição canônica pra não inventar métrica.
Modern Data Stack era brand. Stack de dados em 2026 é arquitetura. Quem ainda vende a etiqueta está vendendo 2021.
Como decidir o stack em 2026
Cinco perguntas que orientam decisão.
- Onde já mora o resto da operação? Cloud principal define warehouse natural. Não brigue contra gravidade organizacional.
- Qual o volume real, não projetado? Dimensionar pra 10TB quando se tem 200GB é desperdício; o contrário também.
- Time tem músculo de operação contínua? Lakehouse mais sofisticado (Databricks com Spark customizado) exige squad dedicado; Snowflake puro exige menos.
- Camada semântica é tratada como cidadão de primeira classe? Se não, a stack vai entregar dashboards conflitantes em 18 meses, independente das outras escolhas.
- Quem responde por governança em 2 anos? Pessoa, não ferramenta. Sem dono claro, qualquer stack vira pântano em 24 meses.
O que NÃO comprar em 2026
Três coisas que ainda aparecem em pitch de fornecedor e não fazem sentido investir:
Reverse ETL standalone, exceto em arquitetura legacy sem Salesforce/HubSpot/Customer.io.
Data catalog separado, exceto em ambiente multi-cloud com vários warehouses (raro). O catálogo do warehouse cobre 80% do uso real.
"Modern Data Stack consultancy" que vende a etiqueta. Em 2026, ou o consultor entende a arquitetura técnica peça por peça, ou está vendendo brand morta.
Quem monta stack de dados em 2026 escolhe pelo encaixe organizacional, custo total e capacidade de operação contínua. O termo Modern Data Stack pode aparecer no slide do pitch, mas a decisão acontece num nível abaixo — e quem decide bem nesse nível abaixo entrega projeto que vinga; quem compra o slide entrega projeto que vira mais um item no catálogo de ferramentas pagas e subutilizadas.