Géminis acaba de obtener una nueva característica altamente solicitada que triunfa chatgpt

0 3 3 minutes read

Géminis acaba de obtener una nueva característica altamente solicitada que triunfa chatgpt

El Asistente de AI Gemini de Google ahora admite cargas de archivos de audio.
La IA transcribirá, resumirá y extraerá información clave de las grabaciones.
La función cumple 10 minutos de memorandos de voz, reuniones, conferencias y entrevistas en documentos de búsqueda.

Google Gemini acaba de aprender a escuchar y dar sentido a lo que escucha. Ahora puede cargar archivos de audio al Asistente de IA en la web o a través de las aplicaciones móviles y obtener transcripciones, resúmenes y detalles clave.

Para cualquiera que haya dejado que una nota de voz se pudra en su teléfono o haya temido la tarea de volver a ver una grabación de una reunión, esta actualización podría ser el equivalente de AI de contratar a un tomador de notas personal.

Dicho esto, solo puede manejar 10 minutos de audio a la vez, por lo que todavía no hay reuniones largas. Puede cargar los archivos de audio directamente seleccionando audio en las opciones de carga de archivo habituales. Lo que lo hace diferente de las características anteriores de Gemini Live Voice de Gemini es que esto no solo habla con la IA en tiempo real.

Gemini Live es útil para comandos casuales, pero se trata más de hacer que la IA procese los datos como lo hace con los otros formatos. En particular, la carga de archivos de audio aparentemente ha sido la característica más solicitada de los usuarios, según el vicepresidente de Google de Gemini Josh Woodward.

Tienes audio

✅ Papercut solucionado: ahora puede cargar cualquier archivo a @geminiapp. Incluyendo la solicitud #1: ¡Los archivos de audio ahora son compatibles! pic.twitter.com/4te3xwlc6w 8 de septiembre de 2025

Lo probé subiendo un par de bocetos de antiguos álbumes de comedia y una conversación telefónica con un amigo. La IA transcribió con éxito todas las palabras dicho en cada caso, con un par de pequeños errores relacionados con el nombre. También fue bueno extraer elementos clave y cosas establecidas para una lista de tareas pendientes.

La demanda de audio y la respuesta de Google sugieren cómo están evolucionando las herramientas de IA para que coincida con la forma en que guardamos información en registros de audio y memorandos de voz. Convertir eso en algo que se puede buscar generalmente ha significado usar software de transcripción externa. La nueva característica de Gemini colapsa ese proceso en un solo paso.

Lo que hace que la adición se sienta particularmente oportuna es la forma en que encaja con otras mejoras recientes de Géminis. Google ya ha integrado a Gemini en aplicaciones como, comenzó a probar una interfaz visual basada en tarjetas y amplió significativamente las opciones de personalización de Gemini. La capacidad de procesar audio continúa esa tendencia.

La opción de audio no es exclusiva de Gemini entre los asistentes de IA, pero al menos puede coincidir con algo de lo que ChatGPT puede hacer gracias a su modelo de transcripción Whisper. De hecho, en mis pruebas, preferí la oferta de Google.

Claude de Anthrope también maneja el audio en algunas herramientas de desarrollador, y la perplejidad puede extraer datos de YouTube videos. Pero la ejecución de Gemini se centra más en los casos de uso diario.

Y la salida no es solo una transcripción tonta. Puede pedirle a Gemini que simplifique el idioma, extraiga comentarios específicos del hablante, genere preguntas basadas en el contenido o cree una guía de estudio de una discusión en el aula. Por supuesto, el límite de 10 minutos pone cierta moderación en hacerla parte de la vida cotidiana. Los usuarios de nivel libre también enfrentan límites de uso diarios.

Google no ha publicado un desglose formal de precios para el procesamiento de audio de alto volumen, pero es parte de la cuota regular de Géminis, por lo que cualquiera que planee alimentarlo una docena de horas legales debería acelerar.