El científico jefe de Google, Jeff Dean, dijo que la baja latencia y el costo de Flash son la razón por la que Google puede ejecutar la búsqueda AI a escala. La recuperación es una elección de diseño, no una limitación, añadió.
En una entrevista en el podcast Latent Space, Dean explicó por qué Flash se convirtió en el nivel de producción de la Búsqueda. También explicó por qué probablemente persistirá el canal que limita la red a un puñado de documentos.
Google comenzó a implementar Gemini 3 Flash como predeterminado para el modo AI en diciembre. La entrevista de Dean explica el fundamento de esa decisión.
Por qué Flash es el nivel de producción
Dean calificó la latencia como la limitación crítica para ejecutar la IA en la Búsqueda. A medida que los modelos manejan tareas más largas y complejas, la velocidad se convierte en el cuello de botella.
“Tener sistemas de baja latencia que puedan hacer eso parece realmente importante, y el flash es una dirección, una forma de hacerlo”.
Los presentadores de podcasts notaron el dominio de Flash en servicios como Gmail y YouTube. Dean dijo que la búsqueda es parte de esa expansión, y que el uso de Flash está creciendo en el modo AI y en las descripciones generales de AI.
El flash puede servir a esta escala debido a la destilación. El Flash de cada generación hereda el rendimiento de nivel Pro de la generación anterior, volviéndose más capaz sin que su funcionamiento sea más costoso.
“Durante varias generaciones de Gemini, hemos podido hacer que el tipo de versión flash de la próxima generación sea tan buena o incluso sustancialmente mejor que la versión profesional de la generación anterior”.
Ese es el mecanismo que hace que la arquitectura sea sostenible. Google impulsa modelos de vanguardia para el desarrollo de capacidades y luego destila esas capacidades en Flash para su implementación en producción. Flash es el nivel que Google diseñó para ejecutarse a escala de búsqueda.
Recuperación sobre memorización
Más allá del papel de Flash en la búsqueda, Dean describió una filosofía de diseño que mantiene el contenido externo en el centro del funcionamiento de estos modelos. Los modelos no deberían desperdiciar capacidad almacenando datos que puedan recuperar.
“Hacer que el modelo dedique un valioso espacio de parámetros para recordar hechos oscuros que podrían buscarse no es en realidad el mejor uso de ese espacio de parámetros”.
La recuperación de fuentes externas es una capacidad central, no una solución alternativa. El modelo busca cosas y analiza los resultados en lugar de llevar todo internamente.
Por qué persiste la recuperación por etapas
La búsqueda con IA no puede leer toda la web a la vez. Los mecanismos de atención actuales son cuadráticos, lo que significa que el costo computacional crece rápidamente a medida que aumenta la longitud del contexto. Dean dijo que “un millón de tokens impulsa lo que puedes hacer”. Escalar a mil millones o un billón no es factible con los métodos existentes.
La visión a largo plazo de Dean son modelos que den la “ilusión” de atender billones de tokens. Alcanzar eso requiere nuevas técnicas, no solo ampliar lo que existe hoy. Hasta entonces, la búsqueda por IA probablemente seguirá reduciendo un amplio grupo de candidatos a un puñado de documentos antes de generar una respuesta.
Por qué esto importa
El modelo que lee su contenido en modo AI mejora con cada generación. Pero está optimizado para la velocidad sobre la profundidad del razonamiento y está diseñado para recuperar su contenido en lugar de memorizarlo. Ser localizable a través de las señales de recuperación y clasificación existentes de Google es el camino hacia los resultados de búsqueda de IA.
Hemos realizado un seguimiento de cada cambio de modelo en el modo AI y en las descripciones generales de AI desde que Google lanzó el modo AI con Gemini 2.0. Google envió Gemini 3 al modo AI el día del lanzamiento y luego comenzó a implementar Gemini 3 Flash como predeterminado un mes después. Más recientemente, Gemini 3 se convirtió en el predeterminado para las descripciones generales de IA a nivel mundial.
Cada generación de modelos sigue el mismo ciclo. Frontera de capacidad, luego destilación en Flash para producción. Dean presentó esto como la arquitectura que Google espera mantener a escala de búsqueda, no como una alternativa temporal.
Mirando hacia el futuro
Según los comentarios de Dean, es probable que la recuperación por etapas persista hasta que los mecanismos de atención superen sus límites cuadráticos. La inversión de Google en Flash sugiere que la empresa espera utilizar esta arquitectura en varias generaciones de modelos.
Un cambio a tener en cuenta es la selección automática del modelo. Robby Stein de Google describió el concepto mencionado anteriormente, que implica enrutar consultas complejas a Pro manteniendo Flash como predeterminado.
Imagen de portada: Robert Way/Shutterstock



