Open source vs proprietary LLMs: criterios honestos para elegir sin ideología

La reunión que aparece cada vez que el equipo discute la elección de LLM en 2026: defensor de open source argumenta soberanía, transparencia, costo controlado. Defensor de proprietary argumenta calidad, soporte, ecosistema maduro. Los dos presentan argumento sólido — y casi nunca convergen, porque la discusión queda en dimensión única. La elección real depende de cuatro dimensiones, y cada empresa pesa cada una distinto.

Este texto es la regla honesta para elegir entre open source (Llama, Mistral, Qwen) y proprietary (GPT, Claude, Gemini) en 2026. No es debate filosófico — es decisión de producto que define el stack por los próximos 2 años.

A dónde llegó open source en 2026

El argumento "proprietary es objetivamente mejor" ya no vale. En 2026:

Llama 3.x y Llama 4 compiten con GPT-4 y Claude en muchos benchmarks. Empate técnico en conversación, razonamiento medio, traducción, summarización.
Mistral Large entrega calidad similar con licencia comercial permisiva y costos de hosting controlados.
Qwen y DeepSeek rompieron la hegemonía occidental — modelos chinos con calidad competitiva y costos más bajos todavía.

El gap restante: tareas de frontera (razonamiento complejo, código de alta calidad, multimodal avanzado) donde proprietary todavía lidera por 6–12 meses. Pero para el 70–80% de los casos de uso empresarial, open source resuelve con calidad equivalente.

Open source LLM en 2026 ya no es "alternativa barata". Es opción legítima de calidad. Pero la calidad es solo una de las cuatro dimensiones — quien decide solo por calidad ignora las otras tres.

Las cuatro dimensiones de la decisión

La regla que separa decisión técnica de decisión ideológica. Cada una pesa distinto en cada empresa.

1. Calidad en el caso de uso específico. No calidad en benchmark genérico. Calidad en lo que tu empresa hace: clasificación, extracción, generación, razonamiento. Open source reciente compite en el 70–80% de los casos. Para el otro 20%, proprietary todavía lidera. ¿Cómo saberlo? Eval set propio corrido contra cada candidato. Tarda 2 semanas, vale 2 años de decisión.

2. Costo real — no precio por token. Open source self-hosted: costo de GPU + ops + energía + mantenimiento. Proprietary: precio por token + sin ops. El giro ocurre en volumen: por debajo de ~1M llamadas/mes, proprietary es más barato. Por encima de ~10M/mes, self-hosted gana. Entre los dos, depende del caso. El costo unitario real necesita cálculo, no estimación.

3. Control y soberanía. ¿La empresa necesita correr dato en su propia infra? ¿Tiene requisito regulatorio de no enviar a terceros? ¿La privacidad exige determinada arquitectura? Sí en cualquiera de esas = open source self-hosted (o instancia dedicada de proprietary, pero raro). En mercados regulados (salud, financiero, gobierno), esa dimensión pesa más que la calidad.

4. Capacidad operativa del equipo. Open source self-hosted exige expertise en ML ops, dimensionamiento de GPU, monitoreo, optimización de inferencia. Proprietary entrega todo eso embebido. Empresa con equipo de 3 personas en IA no debería asumir self-hosted. Empresa con 30+ ingenieros en ML puede. No es vergüenza pagar proprietary porque no tenés equipo — es vergüenza intentar self-hosted sin equipo y generar costo de oportunidad.

Quien pondera las cuatro llega a respuesta sólida. Quien decide por solo una (generalmente ideología o benchmark) descubre las otras tres costando caro después.

Dónde open source tiene más sentido

Cuatro contextos donde la balanza pende claramente hacia open source self-hosted:

Volumen alto previsible. SaaS con 50M+ inferencias/mes. La diferencia de costo justifica inversión en infra propia — payback en 6–12 meses.

Dato sensible que no puede salir. Salud, dato financiero regulado, dato personal bajo jurisdicción estricta. No hay forma de hacerlo con proprietary que envía a cloud externa. En esos casos, hacer fine-tuning en modelo open source remueve dato sensible del ciclo de inferencia en producción — el conocimiento queda en los pesos tras el entrenamiento, sin necesitar índice persistente accesible en tiempo de ejecución.

Necesidad de fine-tuning custom y barato. Open source permite fine-tuning serio con control total — útil cuando el caso de uso exige especialización. Proprietary tiene fine-tuning, pero más restringido y caro.

Investigación y experimentación. Equipo que necesita probar variantes, modificar arquitectura, experimentar con hiperparámetros. Open source da acceso. Proprietary es caja negra.

Esos cuatro casos justifican la inversión en capacidad operativa. Fuera de ellos, proprietary gana en time-to-value.

Dónde proprietary sigue siendo mejor

Cuatro contextos donde proprietary es la elección racional, sin ideología:

Casos que exigen calidad de frontera. Generación de código de alta calidad, razonamiento complejo multi-step, multimodal sofisticado. Proprietary mantiene 6–12 meses de ventaja acá. Para producto que depende de esa calidad, open source todavía no es opción.

Equipo chico en IA. Empresa con 1–5 personas enfocadas en IA no debería gastar 30% del tiempo operando GPUs. Proprietary entrega "modelo + ops" como paquete.

Volumen bajo o variable. Por debajo de 1M llamadas/mes, o con picos imprevisibles, el costo de GPU ociosa de self-hosted supera el ahorro de token. Proprietary con pay-as-you-go gana.

Time-to-market crítico. Setup de proprietary es días. Setup de self-hosted es semanas. Cuando el ciclo de producto importa más que el costo unitario, proprietary acelera.

Esos contextos cubren la mayoría de las empresas de tamaño medio en 2026.

La solución híbrida que muchos no consideran

La decisión rara vez es binaria. La arquitectura que viene funcionando en empresas maduras: proprietary para calidad de frontera, open source para volumen.

Tareas de alta calidad, bajo volumen: Claude o GPT (razonamiento crítico, generación de propuesta ejecutiva, análisis complejo).
Tareas de media calidad, alto volumen: Llama o Mistral self-hosted (clasificación, extracción, summarización en gran escala).
Tareas regulatorias: Open source self-hosted obligatorio.
Experimentación: Proprietary (más rápido para prototipar).

Esa combinación entrega el 70–80% del ahorro de open source con el 95% de la calidad de proprietary. Exige routing inteligente — pero es resolvible con gateway de LLM (LiteLLM, OpenRouter, propio).

Quien fuerza arquitectura única (solo open o solo proprietary) paga en una de las dimensiones. Quien acepta el híbrido optimiza por contexto.

La regla antes de decidir

Cinco preguntas para responder antes de la arquitectura:

¿Cuál es el volumen estimado en 18 meses? Define si self-hosted vale.
¿Qué dice el eval set propio corrido contra 3–4 candidatos? Sin eso, la calidad es palpito.
¿Hay requisito regulatorio o de soberanía? Respuesta sí → open source self-hosted en el alcance cubierto.
¿Cuál es la capacidad operativa del equipo en ML ops? Honestamente, no con optimismo.
Time-to-market vs. costo unitario — ¿cuál pesa más? Define la primera elección; puede evolucionar después.

Quien responde las cinco con claridad tiene decisión fundamentada. Quien responde ideológicamente está debatiendo, no decidiendo.

La decisión para 2026

Tres movimientos honestos antes de firmar contrato anual con proprietary o de invertir en GPU para self-hosted:

Corré eval propio en 3–4 candidatos. Llama 3 o 4, Mistral Large, Claude Sonnet, GPT-4o. Misma tarea real, mismo eval set. Las diferencias aparecen que el benchmark genérico no muestra.

Calculá TCO de 24 meses por arquitectura. Proprietary, self-hosted, híbrido. Incluí ops, GPU, dev, mantenimiento. Las diferencias suelen ser de 2–5×.

Considerá el híbrido en serio. No es compromiso perezoso — es optimización por contexto. El stack moderno lo permite sin complejidad absurda.

Open source vs proprietary en 2026 ya no es debate filosófico — es decisión operativa con criterios mensurables. Empresa que elige ideológicamente pierde en las dimensiones que no consideró. Empresa que elige por necesidad combina los dos mundos donde tiene sentido, sin atarse a religión de stack.

Preguntas que siempre vuelven

Tres preguntas que cierran la mayoría de las discusiones de elección de LLM — respondidas con los criterios de este texto.

¿Vale la pena cambiar GPT o Claude por un modelo open source?

Depende de tu caso de uso, no del benchmark: open source reciente compite en calidad en el 70–80% de los casos empresariales, pero proprietary todavía lidera por 6–12 meses en las tareas de frontera — razonamiento complejo, código de alta calidad, multimodal avanzado. Si tu producto depende de esa calidad, open source todavía no es opción.

La única forma de saber de qué lado cae tu caso es correr eval set propio contra 3–4 candidatos — Llama, Mistral Large, Claude Sonnet, GPT-4o — en la misma tarea real. Tarda 2 semanas y vale 2 años de decisión; sin eso, la calidad es palpito.

¿A partir de qué volumen conviene el self-hosted?

Por debajo de ~1M llamadas/mes, proprietary es más barato; por encima de ~10M/mes, self-hosted gana; entre los dos, depende del caso. El motivo: self-hosted cambia precio por token por costo de GPU + ops + energía + mantenimiento — y la GPU ociosa en volumen bajo o variable se come el ahorro de token.

El volumen no es el único factor. El cálculo serio es TCO de 24 meses por arquitectura, incluyendo ops, GPU, dev y mantenimiento — las diferencias suelen ser de 2–5×. Y exige equipo con capacidad operativa real en ML ops; si no lo tenés, el self-hosted se vuelve costo de oportunidad, no ahorro.

¿Se puede combinar open source y proprietary en el mismo stack?

Sí — y es la arquitectura que viene funcionando en empresas maduras: proprietary para calidad de frontera en bajo volumen, open source self-hosted para tareas de media calidad en alto volumen, y self-hosted obligatorio en el alcance regulatorio. Esa combinación entrega el 70–80% del ahorro de open source con el 95% de la calidad de proprietary.

El requisito es routing inteligente, resolvible con gateway de LLM (LiteLLM, OpenRouter o propio). El híbrido no es compromiso perezoso — es optimización por contexto. Quien fuerza arquitectura única paga en una de las cuatro dimensiones que no consideró.