El costo de usar IA para programar se volvió un problema real. Claude, Gemini y ChatGPT tienen límites de uso que se alcanzan rápido, y los planes de pago se disparan según la complejidad de los proyectos. Cada vez más usuarios están migrando a modelos que se ejecutan directamente en la computadora, sin depender de servidores externos ni pagar por token. Gemma 4 12B es la apuesta más seria de Google en esa dirección.
Qué es Gemma 4 12B y qué puede hacer
Gemma 4 12B es una variante de Gemma 4 que puede ejecutarse en cualquier computadora con 16 GB de memoria RAM o VRAM. Se trata de un modelo multimodal con 12.000 millones de parámetros y una ventana de contexto de hasta 256.000 tokens. Eso último importa: significa que puede procesar proyectos grandes con muchos archivos o documentación extensa sin cortarse a la mitad.
El avance en programación respecto a la versión anterior es notable. Comparado con su versión anterior, Gemma 4 12B pasó del 29,1% al 80,0% en LiveCodeBench, un benchmark que mide la capacidad de generar código, verificar que corre sin errores y corregirlos sobre la marcha. En Codeforces ELO llegó a 2.150, lo que lo coloca en territorio de programador competitivo experto.
Qué computadora necesitás para usarlo
Gemma 4 12B puede funcionar con 8 GB de RAM con cuantización a 4 bits, pero lo recomendable es duplicar esa cifra para una mayor calidad. Eso significa que podés ejecutar el modelo con cualquier Mac con chip Apple Silicon de 16 GB de memoria unificada, o con un PC con la misma cantidad de RAM, o una GPU NVIDIA con 16 GB de VRAM o superior.
Cómo instalarlo en minutos con Ollama
El camino más rápido para desarrolladores es Ollama, una herramienta que descarga y ejecuta el modelo con un solo comando y se integra bien con VS Code. Una vez instalado Ollama desde su sitio oficial, basta con escribir en la terminal: ollama run gemma4:12b.
Ollama descargará los pesos del modelo y dejará disponible un servidor local compatible con la API. Eso significa que podés conectar cualquier herramienta que ya uses habitualmente: Continue (extensión para VS Code), Aider, o cualquier cliente que soporte endpoints. En VS Code, instalás la extensión Continue, apuntás el endpoint a http://localhost:11434 y listo: el modelo completa código, explica funciones, refactoriza bloques y genera tests sin salir del editor.
Un detalle a tener en cuenta: Ollama descarga el modelo de la memoria luego de cinco minutos de inactividad. Si no querés lidiar con una carga en frío cada vez que volvés al terminal, solo necesitás añadir OLLAMA_KEEP_ALIVE="-1" en tu archivo ~/.zshrc.
La gran ventaja: privacidad y cero costo
Al ejecutar Gemma 4 12B localmente, todo el código, capturas de pantalla o documentos privados no salen de tu computadora. Para proyectos bajo NDA o código propietario, esto es una gran ventaja. Y dado que no hay costo por token, podés consultarlo todas las veces que quieras sin que el gasto mensual se dispare.
La limitación existe y conviene reconocerla. Las tareas que implican refactorización completa de proyectos, decisiones arquitectónicas complejas o cadenas de herramientas muy largas siguen funcionando mejor con modelos en la nube. Lo recomendado es un enfoque híbrido: dejar que Gemma 4 12B se encargue del 60 o 70% de las tareas rutinarias —boilerplate, tests, explicación de errores— y reservar los modelos más potentes para las decisiones complejas. Ese equilibrio reduce el gasto en APIs sin resignar calidad cuando más importa.
