Operai no revelará el uso de energía de GPT-5. Podría ser más alto que los modelos pasados | Opadai

In a mediados de 2023, si un usuario le pidió a ChatGPT de Openai una receta para alcachofas pastas o instrucciones sobre cómo hacer un ritual ofrenda Para la antigua deidad cananea Moloch, su respuesta podría haber tomado, muy aproximadamente, 2 vatioshoraso casi tanta electricidad como una bombilla incandescente consume en 2 minutos.
Opadai liberado un modelo el jueves que sustentará el popular chatbot – GPT-5. Pida esa versión de la IA para una receta de alcachofa, y la misma cantidad de texto relacionado con la pasta podría tomar varias veces, incluso 20 veces, esa cantidad de energía, dicen los expertos.
A medida que implementaba GPT-5, la compañía destacado Las capacidades innovadoras del modelo: su capacidad para crear sitios web, responder preguntas de ciencias a nivel de doctorado y razón a través de problemas difíciles.
Pero los expertos que han pasado los últimos años trabajando para comparar el uso de energía y recursos de los modelos de IA dicen que esos nuevos poderes tienen un costo: una respuesta de GPT-5 puede tomar una cantidad de energía significativamente mayor que una respuesta de versiones anteriores de Chatgpt.
OpenAi, como la mayoría de sus competidores, no ha publicado información oficial sobre el uso de energía de sus modelos desde GPT-3, que salió en 2020. Sam Altman, su CEO, lanzó algunos números en el consumo de recursos de Chatgpt en su blog este junio. Sin embargo, estas cifras, 0.34 vatios y hora y 0.000085 galones de agua por consulta, no se refieren a un modelo específico y no tienen documentación de soporte.
“Un modelo más complejo como GPT-5 consume más poder tanto durante la capacitación como durante la inferencia. También está dirigido a un largo pensamiento … Puedo decir con seguridad que va a consumir mucho más poder que GPT-4”, dijo Rakesh Kumar, profesor de la Universidad de Illinois, que actualmente trabaja en el consumo de energía de los modelos de cálculo y AI.
El día GPT-5 fue lanzado, investigadores En el laboratorio de IA de la Universidad de Rhode Island, descubrió que el modelo puede usar hasta 40 vatios de electricidad para generar una respuesta de longitud media de aproximadamente 1,000 tokens, que son los componentes básicos de texto para un modelo de IA y son aproximadamente equivalentes a las palabras.
A panel El viernes indica que el consumo promedio de energía de GPT-5 para una respuesta de longitud media es de poco más de 18 vatios, una cifra que es más alta que todos los otros modelos que comparan, excepto para el modelo de razonamiento O3 de OpenAi, lanzado en abril, y R1, hecha por la firma china de IA Deepseek.
Esto es “significativamente más energía que GPT-4O”, el modelo anterior de Opadaidijo Nidhal Jegham, investigador del grupo.
Dieciocho vatios correspondieron a quemar esa bombilla incandescente durante 18 minutos. Dado reciente informes Ese chatgpt maneja las solicitudes de 2.5 mil millones al día, el consumo total de GPT-5 podría llegar a la electricidad diaria demanda de 1,5 m casas de EE. UU.
Por tan grandes que sean estos números, los investigadores en el campo dicen que se alinean con sus amplias expectativas para el consumo de energía de GPT-5, dado que se cree que GPT-5 es varias veces más grande que los modelos anteriores de OpenAI. Operai no ha lanzado los recuentos de parámetros, que determinan el tamaño de un modelo, para cualquiera de sus modelos desde GPT-3, que tenía 175 mil millones parámetros.
Una revelación este verano de la compañía francesa de IA Mistral hallazgos Una “fuerte correlación” entre el tamaño de un modelo y su consumo de energía, basado en el estudio de Mistral de sus sistemas internos.
“Según el tamaño del modelo, la cantidad de recursos [used by GPT-5] Deberían ser órdenes de magnitud más altas que la de GPT-3 ”, dijo Shaolei Ren, profesora de la Universidad de California, Riverside que estudia el recurso Huella de AI.
Benchmarking AI Power Usage
GPT-4 fue ampliamente creído ser 10 veces el tamaño de GPT-3. Jegham, Kumar, Ren y otros dicen que es probable que GPT-5 sea significativamente más grande que GPT-4.
Empresas de IA líderes como OpenAI creer eso extremadamente grande Los modelos pueden ser necesarios para lograr AGI, es decir, un sistema de IA capaz de hacer trabajos de los humanos. Altman ha argumentado fuertemente por este punto de vista, escribiendo En febrero: “Parece que puede gastar cantidades arbitrarias de dinero y obtener ganancias continuas y predecibles”, aunque dijo que GPT-5 no superó la inteligencia humana.
después de la promoción del boletín
En su evaluación comparativa estudiar En julio, que analizó el consumo de energía, el uso del agua y las emisiones de carbono para LE Chat Bot de Mistral, la startup encontró una relación uno a uno entre el tamaño de un modelo y su consumo de recursos, escribiendo: “Un modelo 10 veces mayor generará impactos de un orden de magnitud más grande que un modelo más pequeño para la misma cantidad de tokens generados”.
Jegham, Kumar y Ren dijeron que si bien la escala de GPT-5 es significativa, probablemente hay otros factores que entrarán en juego para determinar su consumo de recursos. GPT-5 se implementa en hardware más eficiente que algunos modelos anteriores. GPT-5 aparecer Usar una arquitectura de “mezcla de expertos”, lo que significa que se simplifica para que no todos sus parámetros se activen al responder a una consulta, una construcción que probablemente reducirá su consumo de energía.
Por otro lado, GPT-5 también es un modelo de razonamiento, y funciona en video e imágenes, así como en texto, lo que probablemente hace que su huella de energía sea mucho mayor que las operaciones de solo texto, tanto Ren como Kumar, especialmente porque el modo de razonamiento significa que el modelo calculará durante más tiempo antes de responder a una consulta.
“Si usa el modo de razonamiento, la cantidad de recursos que gasta para obtener la misma respuesta probablemente será varias veces más alta, de cinco a 10”, dijo Ren.
Información oculta
Para calcular el consumo de recursos de un modelo de IA, el grupo de la Universidad de Rhode Island multiplicó el tiempo promedio que el modelo toma para responder a una consulta, ya sea para una receta de pasta o una ofrenda a Moloch, por el sorteo promedio de la potencia del modelo durante su operación.
Estimación del sorteo de poder de un modelo fue “mucho trabajo”, dijo Abdeltawab Hendawi, un profesor de ciencia de datos en la Universidad de Rhode Island. El grupo luchó por encontrar información sobre cómo se implementan diferentes modelos dentro de los centros de datos. Su final papel Contiene estimaciones para las cuales se utilizan chips para un modelo determinado y cómo se parceladas de diferentes consultas entre diferentes chips en un centro de datos.
La publicación del blog de Altman June confirmó sus hallazgos. La cifra que dio para el consumo de energía de Chatgpt por consulta, 0.34 vatios-horas por consulta, coincide estrechamente con lo que el grupo encontró para GPT-4O.
Hendawi, Jegham y otros en su grupo dijeron que sus hallazgos subrayaron la necesidad de más transparencia de las compañías de IA mientras lanzan modelos cada vez mayores.
“Es más crítico que nunca abordar el verdadero costo ambiental de la IA”, dijo Marwan Abdelatti, un profesor en Uri. “Hacemos un llamado a Operai y a otros desarrolladores que usen este momento para comprometerse con la transparencia total al revelar públicamente el impacto ambiental de GPT-5”.