ChatGPT podrá ver, oír y hablar: las nuevas funciones que revolucionarán la forma de interactuar con esta IA

La IA de OpenAI podrá escucharnos, mantener conversaciones habladas con voz artificial y comprender y analizar imágenes.
Imagen de una persona usando ChatGPT en su ordenador portátil
26 de septiembre, de 2023
Copiar enlace

OpenAI ha anunciado la implementación de nuevas capacidades de voz e imagen en ChatGPT. Estas características permitirán a los usuarios hablar directamente con ChatGPT, mostrarle imágenes para obtener respuestas y mantener conversaciones más elaboradas. Los usuarios de los planes Plus y Enterprise podrán disfrutar de estas funciones que revolucionarán la forma en que interactuamos con esta IA generativa en las próximas semanas.

Así mismo, la implementación de estas funciones se realiza con un enfoque claro en la seguridad y la utilidad, ya que OpenAI reconoce los desafíos y riesgos potenciales asociados con la voz y la imagen en la IA.

Mantén conversaciones habladas con ChatGPT gracias a sus funciones de voz

En el caso de la voz, OpenAI ha decidido enfocarse principalmente en el chat de voz, lo que significa que las capacidades de conversación por voz están diseñadas para ser seguras y útiles para los usuarios en situaciones como solicitar información, contar historias o resolver preguntas.

Ahora los usuarios podrán pedirle a ChatGPT una historia para contar antes de dormir, debatir un tema o simplemente mantener una conversación. Este nuevo nivel de interacción está diseñado para hacer que la experiencia sea más personal y accesible.

Para comenzar a usar la voz, simplemente dirígete a la Configuración en la aplicación móvil, selecciona «Nuevas funciones» y opta por las «Conversaciones de voz». Luego, elige una de las 5 voces disponibles para tu asistente. La tecnología subyacente se basa en un modelo de conversión de texto a voz que puede generar audio que replica la voz humana de modo realista a partir de texto y una breve muestra de voz. Las voces utilizadas en la función de voz han sido creadas en colaboración con actores de voz profesionales.

Esta innovación también se apoya en Whisper, el sistema de reconocimiento de voz de código abierto desarrollado por OpenAI, que transcribe tus palabras habladas en texto. A través de esta integración de voz, ChatGPT ofrece una experiencia más rica y natural para los usuarios, permitiéndoles mantener conversaciones con la IA.

Además, OpenAI también está aplicando esta tecnología de voz en colaboración con organizaciones externas, como Spotify. Un ejemplo mencionado es el piloto de la función de traducción de voz de Spotify, que permite a los podcasters ampliar su audiencia mediante la traducción de sus programas a diferentes idiomas utilizando las voces de los propios podcasters.

Nuevas capacidades de comprensión de imágenes

La otra gran adición a ChatGPT es su capacidad para comprender y discutir imágenes. Ahora puedes mostrarle una o varias imágenes y obtener respuestas útiles en función de lo que ve. Esto tiene aplicaciones infinitas, desde solucionar problemas técnicos hasta planificar comidas con lo que tienes en el refrigerador o analizar gráficos complejos para obtener información relevante para tu trabajo.

Por ejemplo en la siguiente imagen, ChatGPT analiza la fotografía subida por el usuario ante la consulta «ayúdame a bajar el asiento de mi bici». A continuación le ofrece instrucciones para conseguirlo en función del modelo de bici de la fotografía, diciéndole incluso en qué parte de la imagen puede encontrar la pieza a la que se refiere.

Imagen que muestra las nuevas capacidades de comprensión de imágenes de ChatGPT

La comprensión de imágenes en ChatGPT se basa en los modelos GPT-3.5 y GPT-4 multimodales, que aplican su capacidad de razonamiento lingüístico a una amplia variedad de imágenes, incluyendo fotografías, capturas de pantalla y documentos que combinan texto e imágenes. Esta funcionalidad promete hacer que las conversaciones sean aún más informativas y prácticas.

Además, para esta función, OpenAI ha priorizado su utilidad y seguridad. Han implementado medidas técnicas para limitar la capacidad de ChatGPT para analizar y hacer afirmaciones sobre personas en las imágenes, respetando así la privacidad de los usuarios. Esto significa que la IA no realizará análisis intrusivos o inapropiados de las personas en las imágenes que los usuarios compartan, garantizando un uso seguro y ético de la tecnología de imágenes.

Foto: Depositphotos

 

Publicado por

Redactora de Marketing4eCommerce
Periodista digital, amante del copywriting, las redes sociales y de una buena taza de café para empezar a teclear. Soy licenciada en Comunicación Social en mención impreso (2021), pero he ganado experiencia detrás de los teclados desde 2018.

Suscríbete a M4C

Únete a nuestro canal de Whatsapp

¡Todo lo que necesitas saber!

Apúntate a nuestra newsletter y recibe gratis en tu correo nuestros mejores artículos sobre eCommerce y marketing digital.