spot_img

OpenAI presenta un nuevo modelo de lenguaje más rápido y con evoluciones

Análisis

LISA News
LISA News
Contenido creado por el Equipo de Redacción de LISA News con el apoyo del equipo docente de LISA Institute.
  • Se llama GPT-4o y puede razonar texto, vídeo y audio en tiempo real
  • La competencia en IA se intensifica cada vez más

La empresa matriz de ChatGPT, Open AI, anunció este lunes 13 de mayo el lanzamiento de su nuevo modelo de inteligencia artificial llamado GPT-4o. Según anuncia la compañía, es más rápido y es capaz de interactuar con texto, vídeo y audio. Se podrá utilizar como asistente de voz, como traductor en tiempo real y tendrá una aplicación para ordenadores. También obtiene respuestas en tiempo real y puede interrumpir a ChatGPT mientras habla.

«GPT-4o es un paso hacia una interacción humano-computadora mucho más natural. Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a las entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humana en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en el texto en idiomas distintos del inglés. GPT-4o es especialmente mejor en la visión y la comprensión del audio en comparación con los modelos existentes», asegura la compañía en su comunicado de prensa.

El CEO de la compañía, Sam Altman, admitió que esta nueva IA «se siente como la IA de las películas». Admite que hablar con un ordenador nunca le había parecido tan natural, y ahora «lo hace».

La corporación respaldada por Microsoft celebró que su nuevo modelo tenga mayores capacidades de procesamiento. «Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos en GPT-3,5, y 5,4 segundos en GPT-4». En el modelo anterior, para conseguir el modo de voz, el programa canalizaba tres modelos separados. «Un modelo simple transcribe audio a texto, luego toma texto y emite texto, y un tercer modelo simple convierte ese texto en audio de nuevo».

Aseguran que antes, con ese proceso, el modelo GPT-4 «pierde mucha información». Esto se debía porque no puede canalizar el tono, los ruidos de fondo, no puede reír, cantar o expresar emociones. Por ello, celebran que con su nueva configuración se entrena un «único modelo de extremo a extremo a través de texto, visión y audio. Esto significa que todas las entradas y salidas son procesadas por la misma red neuronal», por lo que es más eficiente y preciso. Sin embargo, advierten de que «todavía están explorando el alcance del modelo y sus limitaciones».

Resultados satisfactorios

Las mediciones realizadas por OpenAI en puntos de referencia habituales, aseguran que GPT-4o «consigue un rendimiento de nivel similar a GPT-4 Turbo en inteligencia de texto, razonamiento y codificación. Además, consigue superar a las IAs actuales en reconocimiento de voz y en rendimiento de la traducción de audios. Además, celebran que «es 2 veces más rápido y tiene límites de velocidad 5 veces más altos en comparación con GPT-4 Turbo».

«GPT-4o establece una nueva puntuación récord del 88,7% en preguntas de conocimiento general». También celebran que «GPT-4o mejora drásticamente el rendimiento del reconocimiento de voz en todos los idiomas, especialmente para los idiomas con menos recursos». Por su parte, «establece un nuevo estado en la traducción de voz», superando a Gemini de Google. Por último, en los test de comprensión de la visión, informan que «GPT-4o logra un rendimiento de última generación».

En el procesamiento del lenguaje natural, es más capaz en los 20 idiomas elegidos por la compañía, entre los que se encuentran el inglés, el francés, el portugués, el español, el alemán o el italiano. También es más eficiente en otras lenguas como el turco, el japonés, el chino o el coreano.

Cosas por mejorar

La propia compañía admite en su texto de presentación de que su nuevo modelo de lenguaje no es perfecto, ya que tiene limitaciones y riesgos para la seguridad. Estas amenazas, aseguran, pueden existir por un mal uso del modelo.

«GPT-4o tiene la seguridad incorporada por diseño en todas las modalidades, a través de técnicas como el filtrado de datos de entrenamiento y el refinamiento del comportamiento del modelo a través del post-entrenamiento. También hemos creado nuevos sistemas de seguridad para proporcionar barandillas en las salidas de voz», aseguran.

«Hemos evaluado GPT-4o (…). Nuestras evaluaciones de ciberseguridad, QBRN, persuasión y autonomía del modelo muestran que GPT-4o no obtiene una puntuación superior al riesgo medio en ninguna de estas categorías». Estas pruebas incluyen la realización de pruebas automatizadas y humanas durante el entrenamiento del modelo. Además, confirman que han hecho ajustes e indicaciones personalizadas para aprovechar mejor las capacidades del modelo».

OpenAI asegura que «70 expertos» han trabajado para identificar riesgos que existen en modalidades recién lanzadas. Estos expertos pertenecen a los campos de la psicología, el sesgo y la equidad. Su finalidad es «mejorar la seguridad de la interacción con el modelo y mitigar nuevos riesgos a medida que se descubran». También mencionan otros riesgos que solventarán en los próximos meses. Además, confirman que en el lanzamiento, el audio solo se generará con una selección de voces preestablecidas para evitar riesgos de seguridad.

¿Cuándo estará disponible?

Atendiendo a las últimas novedades de la corporación, se estima que el modelo pueda estar operativo al público en las próximas semanas o meses. Además, GPT-4o estará disponible gratuitamente, aunque los usuarios premium obtendrán límites de mensajes «hasta 5 veces más altos». Primero lanzarán una versión del modo voz en alfa dentro de la versión plus.

Apple busca incorporar ChatGPT

Apple está finalizando un acuerdo de colaboración con OpenAI para integrar ChatGPT en iOS 18. Esta colaboración se enmarca en los esfuerzos de Apple por implementar funciones impulsadas por IA en sus dispositivos. Además, también está negociando con Google para incorporar Gemini a través de actualizaciones de software a finales de este 2024. Los vicepresidentes de Apple, John Giannandrea y Craig Federighi, han concluido que «Siri necesita una renovación en sus funcionalidades».

Artículo escrito por:

Rubén Asenjo Morillas. Periodista apasionado por la actualidad internacional y la geopolítica. Escribo para entender el mundo en constante cambio y compartir perspectivas que despierten la reflexión y el debate. Comprometido con la búsqueda de la verdad y las historias que impacten e inspiren.

Artículos relacionados

Masterclass y eventos relacionados

Formación relacionada

spot_imgspot_img

Actualidad

Dejar respuesta:

Por favor, introduce tu comentario!
Introduce tu nombre aquí

spot_img