El pasado lunes, OpenAI nos sorprendió con el lanzamiento del nuevo modelo ChatGPT-4o, mejor conocido como “omni”. Este nuevo modelo de inteligencia artificial promete ser toda una revolución, ya que llevará la conversación con la IA a un nuevo nivel.

Tal y como se ha dado a conocer, este modelo no solo utiliza las palabras para poder comunicarse, sino que también tendrá la capacidad de responder a entradas visuales y leer señales emocionales y promete ser más rápido que GTP-4 Turbo.
Un detalle importante que debes de tener en cuenta es que este modelo estará disponible de forma gratuita para todos los usuarios de ChatGTP y por medio de una API durante las próximas semanas, informaron desde OpenAI.
Las mejoras de la actualización Chat GPT-4o
En una transmisión en vivo por YouTube titulada «OpenAI Spring Update«, la CTO de OpenAI, Mira Murati, junto con los empleados Mark Chen y Barret Zoph, presentaron las impresionantes capacidades de GPT-4o. La demostración en vivo mostró cómo el modelo puede mantener conversaciones fluidas en tiempo real utilizando audio y comprensión visual.
Pero, ¿cuáles son todas las mejoras integradas en ChatGPT-4o? Se trata de una actualización bastante importante que cuenta con varias mejoras, por lo que ahora vamos a profundizar en las novedades que llegan con esta actualización:
Respuesta Rápida y Natural
Una de las características más destacadas de GPT-4o es su capacidad para responder a entradas de audio en aproximadamente 320 milisegundos, un tiempo de respuesta comparable al de una conversación humana natural, mucho más rápido que los 2-3 segundos típicos de los modelos anteriores.
Este avance se logró entrenando el modelo con datos de texto, visión y audio, procesados simultáneamente por una única red neuronal.
Capacidades Emocionales en Demostraciones en Vivo
Durante la transmisión en vivo, se mostró cómo GPT-4o puede captar y responder a las emociones humanas de manera impresionante. El asistente de IA no solo comprendía el tono emocional del usuario, sino que también ajustaba su estilo de respuesta, incorporando efectos de sonido, risas y hasta cantando, lo que hizo la interacción aún más natural y atractiva.
Comprensión Visual Avanzada
Otra faceta innovadora de GPT-4o es su mejorada capacidad de comprensión visual. Los usuarios pueden cargar capturas de pantalla, documentos con texto e imágenes, y gráficos para mantener conversaciones detalladas sobre el contenido visual. En la demostración, el modelo mostró su habilidad para analizar selfies, detectar emociones y participar en conversaciones animadas sobre las imágenes.
Traducción en Tiempo Real y Multilingüismo
GPT-4o también ha mejorado notablemente en la traducción en tiempo real y la capacidad de comunicación en más de 50 idiomas, cubriendo así el 97% de la población mundial. Esta característica facilita conversaciones casi instantáneas entre hablantes de diferentes idiomas, eliminando barreras lingüísticas y culturales.
Relacionado: ¡OpenAI va por tu trabajo! Sus nuevas IA podrían quitarte tu trabajo
Mejoras en la Accesibilidad y Rendimiento
OpenAI ha hecho que GPT-4o sea accesible para todos los usuarios de ChatGPT, ofreciendo a los suscriptores de pago mayores límites de tasa. En forma de API, GPT-4o promete el doble de velocidad y un costo 50% menor comparado con GPT-4 Turbo. Sin embargo, las capacidades de audio y video aún están en desarrollo y no se han lanzado completamente.
Seguridad y Reducción de Riesgos
Con las nuevas capacidades vienen nuevos desafíos. Mira Murati reconoció los posibles riesgos en términos de seguridad que plantea GPT-4o. OpenAI está comprometido en investigar y abordar estos desafíos, solicitando retroalimentación de los usuarios y llevando a cabo pruebas rigurosas con expertos en diversas áreas como la psicología social, sesgos y desinformación para mejorar continuamente la seguridad del modelo.
Actualizaciones Adicionales a ChatGPT
El mismo día del anuncio de GPT-4o, OpenAI también presentó varias actualizaciones para ChatGPT, incluyendo una nueva aplicación de escritorio para macOS y una interfaz simplificada. Los usuarios gratuitos tendrán acceso a funciones avanzadas como navegación web y análisis de datos, anteriormente exclusivas para suscriptores de pago.
Así que la capacidad que tiene GPT-4o de combinar texto, voz y visión en tiempo real, realmente abre un sinfín de posibilidades en las interacciones hombre-máquina. Esto sin duda alguna es un gran paso para llevarnos a experiencias de IA mucho más emocionales y naturales, más parecidas a lo que podemos ver en la ciencia ficción.
Está más que claro que la revolución de la Inteligencia Artificial apenas está comenzando, ya que con GPT-4o, OpenAI ha dado una pequeña demostración de futuro en el que las máquinas finalmente no solo comprenden palabras, sino que comienzan a reconocer nuestras emociones.
10 videos que demuestra lo sorprendente que es
Han pasado menos de 48 horas desde que OpenAI cambió el mundo con el anuncio de GPT-4o.
— Alejandro | Libertad Financiera (@CopyRebeldia) May 15, 2024
Y la Internet está inundada de videos de demostración.
Aquí están los 10 ejemplos más sorprendentes hasta ahora (No te pierdas el 6to) pic.twitter.com/Kj6YDmcivx
En este hilo de X, el usuario @CopyRebeldia nos presenta 10 videos que demuestran lo sorprendente que es GPT-4o, creando mundos nuevos para personas con discapacidad visual, resolviendo problemas matemáticos, como es capaz de hablar con diferentes tonos, acentos y dialectos, incluso puede traducir cualquier cosa que vea/oiga en tiempo real… ¡Hasta muestran a dos GPT-4o hablando entre sí y cantando!