Tal y como habían prometido, OpenAI ha presentado una nueva tecnología con el que quiere lleva a su modelo de lenguaje un paso más allá. GPT-4o es un modelo avanzado de lenguaje que se implementará próximamente en ChatGPT, aumentando su velocidad de respuesta hasta un «nivel humano», pero que además es capaz de interactuar con entrada mediante texto, audio e incluso mediante imágenes.
GPT-4o nos va a ofrecer una interacción mas humana, siendo similar a la que podríamos obtener manteniendo una conversación con una persona. En concreto se ha aumentado su velocidad de forma que ahora responde en un tiempo promedio de 320 milisegundos, aunque es capaz de llegar hasta los 232 milisegundos. Con ello tenemos una experiencia más fluido y natural que con motores precedentes.
En una nueva forma de unificar los modelos de lenguaje, GPT-4o es capaz de interactuar en tiempo real a través de texto, audio y vídeo, tal y como nos han mostrado en diversas demostraciones.
Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.
— Greg Brockman (@gdb) May 13, 2024
It's extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx
Entra las capacidades que nos han mostrado hemos podido comprobar su trabajo traduciendo en tiempo real una conversación entre italiano e inglés, con un lenguaje coloquial que no se limitada a la transcripción exacta, sino a ser una especia de intermediado que va traduciendo. También es capaz de interpretar las emociones de una persona, incluso partiendo únicamente de una fotografía, e incluso de ayudar en programación analizando y proponiendo mejoras en el código.
Una de las grandes novedades no son tanto sus capacidades de ayudarnos en distintas tareas, sino como es capaz de interpretar, razonar y sugerir mejoras, tal y como lo haría una persona.
Si te as quedado con ganas de ver como funciona GPT-4o, a continuación tienes la presentación al completo.