Las empresas ahora pueden aprovechar el poder de un gran modelo de lenguaje que se acerca a la última tecnología. Google Géminis 3 Propero a una fracción del costo y con mayor velocidad, gracias a Gemini 3 Flash recién lanzado.

El modelo se une a los buques insignia Gemini 3 Pro, Gemini 3 Deep Think y Gemini Agent, todos anunciados y lanzados el mes pasado.

Gemini 3 Flash, ahora disponible en Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio y en versión preliminar en Vertex AI, procesa información casi en tiempo real y le ayuda a crear aplicaciones de agentes rápidas y con capacidad de respuesta.

La empresa dijo en una publicación de blog que Gemini 3 Flash “se basa en la serie de modelos que los desarrolladores y las empresas ya adoran, optimizados para flujos de trabajo de alta frecuencia que exigen velocidad sin sacrificar la calidad.

La plantilla también es la predeterminada para el modo AI en la Búsqueda de Google y la aplicación Gemini.

Tulsee Doshi, director senior de gestión de productos del equipo Gemini, dijo en un publicación de blog separada que el modelo “demuestra que la velocidad y la escala no tienen por qué ir a expensas de la inteligencia”.

“Gemini 3 Flash está diseñado para el desarrollo iterativo y ofrece un rendimiento de codificación de nivel Gemini 3 Pro con baja latencia: es capaz de razonar y resolver tareas rápidamente en flujos de trabajo de alta frecuencia”, dijo Doshi. “Logra un equilibrio ideal para la codificación de agentes, sistemas listos para producción y aplicaciones interactivas responsivas”.

La adopción temprana por parte de empresas especializadas demuestra la fiabilidad del modelo en zonas de alto riesgo. Harvey, una plataforma de inteligencia artificial para bufetes de abogados, informó un aumento del 7 % en el razonamiento en su ‘BigLaw Bench’ interno, mientras que Resemble AI descubrió que Gemini 3 Flash podía procesar datos forenses complejos para la detección de deepfake 4 veces más rápido que Gemini 2.5 Pro. Estos no son sólo aumentos de velocidad; están permitiendo flujos de trabajo “casi en tiempo real” que antes eran imposibles.

Más eficiente a menor costo

Los creadores de IA empresarial se han vuelto más conscientes el costo de ejecutar modelos de IAespecialmente cuando intentan convencer a las partes interesadas de que inviertan más presupuesto en flujos de trabajo de agentes que se ejecutan en modelos costosos. Organizaciones apeladas modelos más pequeños o destilados, centrándose en modelos abiertos u otro técnicas de investigación y estimulación para ayudar a gestionar los inflados costos de la IA.

Para las empresas, la mayor propuesta de valor de Gemini 3 Flash es que ofrece el mismo nivel de capacidades multimodales avanzadas, como análisis de video complejos y extracción de datos, que sus contrapartes Gemini más grandes, pero es mucho más rápido y económico.

Si bien los materiales internos de Google destacan un aumento de velocidad 3 veces mayor que la serie 2.5 Pro, datos de fuentes independientes empresa de evaluación comparativa Análisis artificial añade una capa de matices cruciales.

En las pruebas previas al lanzamiento de esta última organización, Gemini 3 Flash Preview registró un rendimiento bruto de 218 tokens salientes por segundo. Esto lo hace un 22% más lento que el anterior Gemini 2.5 Flash ‘sin sentido’, pero sigue siendo significativamente más rápido que sus rivales, incluido el GPT-5.1 alto de OpenAI (125 t/s) y el razonamiento DeepSeek V3.2 (30 t/s).

En particular, Artificial Analysis coronó a Gemini 3 Flash como el nuevo líder en su punto de referencia de conocimiento AA-Omniscience, donde logró la mayor precisión de conocimiento de cualquier modelo probado hasta la fecha. Sin embargo, esta inteligencia viene con un “impuesto de razonamiento”: el modelo duplica con creces su uso de tokens en comparación con la serie Flash 2.5 cuando se trata de índices complejos.

Esta alta densidad de tokens se ve compensada por los precios agresivos de Google: cuando se accede a través de la API de Gemini, Gemini 3 Flash cuesta $0,50 por cada millón de tokens ingresados, en comparación con $1,25/1 millón de tokens ingresados ​​para Gemini 2.5 Pro y $3/1 millón de tokens salientes, en comparación con $10/1 millón de tokens salientes para Gemini 2.5 Pro. Esto permite que Gemini 3 Flash reclame el título de modelo más rentable por su nivel de inteligencia, a pesar de ser uno de los modelos más “locuaces” en términos de volumen bruto de tokens. Vea cómo se compara con las ofertas rivales de LLM:

Modelo

Entrada (/1M)

Salida (/1M)

Costo total

Fuente

Qwen3 Turbo

$0.05

$0.20

$0.25

Nube de Alibaba

Grok 4.1 Rápido (razonamiento)

$0.20

$0.50

$0.70

xAI

Grok 4.1 Rápido (sin razonamiento)

$0.20

$0.50

$0.70

xAI

chat de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

razonador de búsqueda profunda (V3.2-Exp)

$0.28

$0.42

$0.70

búsqueda profunda

Qwen 3 Plus

$0.40

$1.20

$1.60

Nube de Alibaba

ERNIE 5.0

$0.85

$3.40

$4.25

Qianfan

Vista previa flash de Géminis 3

$0.50

3,00 dólares estadounidenses

$3.50

Google

Claude Haiku 4.5

1,00 dólares EE.UU.

5,00 dólares estadounidenses

6,00 dólares estadounidenses

antrópico

qwen max

$1.60

$6.40

8,00 dólares estadounidenses

Nube de Alibaba

Géminis 3 Pro (≤200K)

2,00 dólares estadounidenses

12,00 dólares estadounidenses

14,00 dólares estadounidenses

Google

GPT-5.2

$1.75

14,00 dólares estadounidenses

$15.75

AbiertoAI

Soneto de Claude 4.5

3,00 dólares estadounidenses

15,00 dólares estadounidenses

18,00 dólares estadounidenses

antrópico

Géminis 3 Pro (>200K)

4,00 dólares estadounidenses

18,00 dólares estadounidenses

22,00 dólares estadounidenses

Google

Cerrar Trabajo 4.5

5,00 dólares estadounidenses

25,00 dólares estadounidenses

30,00 dólares estadounidenses

antrópico

GPT-5.2 Pro

21,00 dólares estadounidenses

168,00 dólares estadounidenses

189,00 dólares estadounidenses

AbiertoAI

Más formas de ahorrar

Pero los desarrolladores y usuarios empresariales pueden reducir aún más los costos eliminando el retraso que tienden a tener la mayoría de los modelos más grandes, lo que aumenta el uso de tokens. Google dijo que el modelo “es capaz de modular cuánto piensa”, por lo que utiliza más pensamiento y, por lo tanto, más tokens para tareas más complejas que para solicitudes rápidas. La compañía señaló que Gemini 3 Flash utiliza un 30% menos de tokens que Gemini 2.5 Pro.

Para equilibrar este nuevo poder de pensamiento con los estrictos requisitos de latencia empresarial, Google introdujo un parámetro de “Nivel de pensamiento”. Los desarrolladores pueden alternar entre “Bajo” (para minimizar el costo y la latencia para tareas de chat simples) y “Alto” (para maximizar la profundidad del razonamiento para la extracción de datos complejos). Este control granular permite a los equipos crear aplicaciones de “velocidad variable” que solo consumen costosas “fichas de pensamiento” cuando un problema realmente requiere un doctorado.

La historia económica va más allá de los simples precios simbólicos. Con la inclusión estándar de Context Caching, las empresas que procesan conjuntos de datos estáticos y masivos, como bibliotecas jurídicas completas o repositorios de bases de código, pueden ver una reducción del 90 % en los costos de consultas repetidas. Cuando se combina con el descuento del 50% de Batch API, el costo total de propiedad de un agente impulsado por Gemini cae significativamente por debajo del umbral de los modelos de frontera de la competencia.

“Gemini 3 Flash ofrece un rendimiento excepcional en codificación y tareas de agentes combinado con un precio más bajo, lo que permite a los equipos implementar costos de razonamiento sofisticados en procesos de gran volumen sin encontrar barreras”, dijo Google.

Al ofrecer un modelo que ofrece un sólido rendimiento multimodal a un precio más asequible, Google sostiene que las empresas preocupadas por controlar su gasto en IA deberían elegir sus modelos, especialmente Gemini 3 Flash.

Fuerte desempeño de referencia

Pero, ¿cómo se compara el Gemini 3 Flash con otros modelos en términos de rendimiento?

Doshi dijo que el modelo logró una puntuación del 78% en la prueba de referencia SWE-Bench Verified para agentes de codificación, superando tanto a la familia Gemini 2.5 anterior como al nuevo Gemini 3 Pro.

Para las empresas, esto significa que las tareas de mantenimiento de software y corrección de errores de gran volumen ahora se pueden descargar a un modelo que es más rápido y más económico que los modelos emblemáticos anteriores, sin degradación en la calidad del código.

El modelo también tuvo un buen desempeño en otros puntos de referencia, con una puntuación del 81,2% en el punto de referencia MMMU Pro, comparable al Gemini 3 Pro.

Si bien la mayoría de los modelos tipo Flash están explícitamente optimizados para tareas cortas y rápidas como la generación de código, Google dice que el rendimiento de Gemini 3 Flash “en razonamiento, uso de herramientas y características multimodales es ideal para desarrolladores que desean realizar análisis de video, extracción de datos y preguntas y respuestas visuales más complejos, lo que significa que puede habilitar aplicaciones más inteligentes, como asistentes en juegos o experimentos de pruebas A/B, que requieren respuestas rápidas y pensamiento profundo”.

Primeras impresiones de los primeros usuarios

Hasta ahora, los primeros usuarios han quedado bastante impresionados con el modelo, especialmente con su rendimiento de referencia.

Qué significa esto para el uso de la IA empresarial

Ahora que Gemini 3 Flash funciona como motor predeterminado en la Búsqueda de Google y en la aplicación Gemini, estamos siendo testigos del “destello” de la inteligencia de frontera. Al hacer del razonamiento de nivel profesional la nueva línea de base, Google está tendiendo una trampa para los titulares más lentos.

La integración en plataformas como Google Antigravity sugiere que Google no sólo está vendiendo un modelo; está vendiendo la infraestructura a la empresa autónoma.

A medida que los desarrolladores comienzan a trabajar con velocidades 3 veces más rápidas y un 90% de descuento en el almacenamiento en caché de contexto, la estrategia “Gemini-first” se convierte en un argumento financiero convincente. En la carrera de alta velocidad por el dominio de la IA, Gemini 3 Flash podría ser el modelo que finalmente transforme la “codificación por vibración” de un pasatiempo experimental a una realidad lista para producción.

Fuente