OpenAI anunció la nueva versión de ChatGPT: aseguran que es un paso hacia una interacción «más natural»

El nuevo modelo insignia de inteligencia artificial puede razonar a través de audio, visión y texto en tiempo real. Responde entradas en tan solo 232 milisegundos.

El CEO de OpenAI, Sam Altman, confirmó este lunes una gran novedad para GPT, la inteligencia artificial generativa en la que se basa ChatGPT. Se trata de una nueva versión llamada GPT-4o, que se asemeja a un asistente al estilo de Gemini, Alexa o Siri, pero con un tono de voz mucho más sofisticado: cuando habla parece una persona.

“El nuevo modo de voz (y video) es la mejor interfaz de computadora que he usado. Parece la IA de las películas; y todavía me sorprende un poco que sea real. Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio», aseguró Altman.

Según la compañía, “GPT-4o (“o” de “omni”) es un paso hacia una interacción persona-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen, y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación.

Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50% más económico en la API. GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes.”

La compañía deberá demostrar cómo evitará que estos sistemas se usen para estafas: tienen la velocidad, ductilidad y capacidad de expresión como para hacerse pasar sin problemas por una persona en el teléfono; incluso si no simulan ser alguien en particular, pueden convencer a cualquiera que esté desprevenido.


Así fue la presentación de GPT-4o


“Nuestro nuevo modelo GPT-4o, es el mejor que hemos hecho. Es inteligente, es rápido, es multimodal nativo y está disponible para todos los usuarios de ChatGPT, ¡incluyendo los del plan gratis! Hasta ahora, los modelos de clase GPT-4 han estado disponibles para gente que paga una suscripción mensual. Esto es importante para nuestra misión; queremos poner herramientas de IA geniales en las manos de todo el mundo”, afirmó Altman, quien aclaró que a nivel de API (es decir, para acceder a GPT-4o desde otra aplicación, como un servicio) el precio bajó a la mitad y es el doble de rápido que GPT-4 turno, con cinco veces más consultas por sesión. Por multimodal, Altman se refiere a un motor que es capaz de generar (y analizar) texto, audio y video al mismo tiempo.

En la presentación general puede verse un ejemplo, en inglés, en que ChatGPT (usando la versión GPT-4o) genera un cuento a pedido de los presentes, y cambia de tono según le piden los usuarios (más humorístico, más tenebroso, etcétera). Muestra la ductilidad que tiene GPT-4o para entender los pedidos de “más o menos emoción” al generar contenido. También aplica a video, para generar código o para hacer traducciones en tiempo real.

Altman se refirió también a la nueva aplicación de escritorio para interactuar con ChatGPT, disponible a partir de hoy, por ahora solo para macOS, un dato no menor para un producto de una compañía en la que Microsoft invirtió 10.000 millones de dólares.

Con información de La Nación


Certificado según norma CWA 17493
Journalism Trust Initiative
Nuestras directrices editoriales
<span>Certificado según norma CWA 17493 <br><strong>Journalism Trust Initiative</strong></span>

Formá parte de nuestra comunidad de lectores

Más de un siglo comprometidos con nuestra comunidad. Elegí la mejor información, análisis y entretenimiento, desde la Patagonia para todo el país.

Quiero mi suscripción

Comentarios