Se presenta la actualización GPT-4o: Conversaciones audiovisuales en tiempo real

Se presenta la actualización GPT-4o

El pasado lunes, OpenAI nos sorprendió con el lanzamiento del nuevo modelo ChatGPT-4o, mejor conocido como “omni”. Este nuevo modelo de inteligencia artificial promete ser toda una revolución, ya que llevará la conversación con la IA a un nuevo nivel.

Se presenta la actualización GPT-4o

Tal y como se ha dado a conocer, este modelo no solo utiliza las palabras para poder comunicarse, sino que también tendrá la capacidad de responder a entradas visuales y leer señales emocionales y promete ser más rápido que GTP-4 Turbo.

Un detalle importante que debes de tener en cuenta es que este modelo estará disponible de forma gratuita para todos los usuarios de ChatGTP y por medio de una API durante las próximas semanas, informaron desde OpenAI.

Las mejoras de la actualización Chat GPT-4o

En una transmisión en vivo por YouTube titulada «OpenAI Spring Update«, la CTO de OpenAI, Mira Murati, junto con los empleados Mark Chen y Barret Zoph, presentaron las impresionantes capacidades de GPT-4o. La demostración en vivo mostró cómo el modelo puede mantener conversaciones fluidas en tiempo real utilizando audio y comprensión visual.

Pero, ¿cuáles son todas las mejoras integradas en ChatGPT-4o? Se trata de una actualización bastante importante que cuenta con varias mejoras, por lo que ahora vamos a profundizar en las novedades que llegan con esta actualización:

Respuesta Rápida y Natural

Una de las características más destacadas de GPT-4o es su capacidad para responder a entradas de audio en aproximadamente 320 milisegundos, un tiempo de respuesta comparable al de una conversación humana natural, mucho más rápido que los 2-3 segundos típicos de los modelos anteriores.

Este avance se logró entrenando el modelo con datos de texto, visión y audio, procesados simultáneamente por una única red neuronal.

Capacidades Emocionales en Demostraciones en Vivo

Durante la transmisión en vivo, se mostró cómo GPT-4o puede captar y responder a las emociones humanas de manera impresionante. El asistente de IA no solo comprendía el tono emocional del usuario, sino que también ajustaba su estilo de respuesta, incorporando efectos de sonido, risas y hasta cantando, lo que hizo la interacción aún más natural y atractiva.

Comprensión Visual Avanzada

Otra faceta innovadora de GPT-4o es su mejorada capacidad de comprensión visual. Los usuarios pueden cargar capturas de pantalla, documentos con texto e imágenes, y gráficos para mantener conversaciones detalladas sobre el contenido visual. En la demostración, el modelo mostró su habilidad para analizar selfies, detectar emociones y participar en conversaciones animadas sobre las imágenes.

Traducción en Tiempo Real y Multilingüismo

GPT-4o también ha mejorado notablemente en la traducción en tiempo real y la capacidad de comunicación en más de 50 idiomas, cubriendo así el 97% de la población mundial. Esta característica facilita conversaciones casi instantáneas entre hablantes de diferentes idiomas, eliminando barreras lingüísticas y culturales.

Relacionado: ¡OpenAI va por tu trabajo! Sus nuevas IA podrían quitarte tu trabajo

Mejoras en la Accesibilidad y Rendimiento

OpenAI ha hecho que GPT-4o sea accesible para todos los usuarios de ChatGPT, ofreciendo a los suscriptores de pago mayores límites de tasa. En forma de API, GPT-4o promete el doble de velocidad y un costo 50% menor comparado con GPT-4 Turbo. Sin embargo, las capacidades de audio y video aún están en desarrollo y no se han lanzado completamente.

Seguridad y Reducción de Riesgos

Con las nuevas capacidades vienen nuevos desafíos. Mira Murati reconoció los posibles riesgos en términos de seguridad que plantea GPT-4o. OpenAI está comprometido en investigar y abordar estos desafíos, solicitando retroalimentación de los usuarios y llevando a cabo pruebas rigurosas con expertos en diversas áreas como la psicología social, sesgos y desinformación para mejorar continuamente la seguridad del modelo.

Actualizaciones Adicionales a ChatGPT

El mismo día del anuncio de GPT-4o, OpenAI también presentó varias actualizaciones para ChatGPT, incluyendo una nueva aplicación de escritorio para macOS y una interfaz simplificada. Los usuarios gratuitos tendrán acceso a funciones avanzadas como navegación web y análisis de datos, anteriormente exclusivas para suscriptores de pago.

Así que la capacidad que tiene GPT-4o de combinar texto, voz y visión en tiempo real, realmente abre un sinfín de posibilidades en las interacciones hombre-máquina. Esto sin duda alguna es un gran paso para llevarnos a experiencias de IA mucho más emocionales y naturales, más parecidas a lo que podemos ver en la ciencia ficción.

Está más que claro que la revolución de la Inteligencia Artificial apenas está comenzando, ya que con GPT-4o, OpenAI ha dado una pequeña demostración de futuro en el que las máquinas finalmente no solo comprenden palabras, sino que comienzan a reconocer nuestras emociones.

10 videos que demuestra lo sorprendente que es

En este hilo de X, el usuario @CopyRebeldia nos presenta 10 videos que demuestran lo sorprendente que es GPT-4o, creando mundos nuevos para personas con discapacidad visual, resolviendo problemas matemáticos, como es capaz de hablar con diferentes tonos, acentos y dialectos, incluso puede traducir cualquier cosa que vea/oiga en tiempo real… ¡Hasta muestran a dos GPT-4o hablando entre sí y cantando!

ARTÍCULO PUBLICADO EN

Publicidad

Publicidad

Deja un comentario

Publicidad

Scroll al inicio

Descubre más desde Cerebro Digital

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Cerebro Digital
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.