Nieves Ábalos - IA Conversacional

Atrás

ondas de coloresondas de colores

Este artículo es un primer extracto de la charla que di en #ProductFest241.

En ella, exploro algunas de las tecnologías de los asistentes como ChatGPT (modelos de lenguaje o LLMs y voces sintéticas) partiendo del impacto que tuvo la demo de GPT-4o de OpenAI lanzado en mayo de 2024. Esta demo elevó las expectativas y el entusiasmo en torno a estas tecnologías. Detrás de esta aparente “magia” hay tecnologías complejas que es importante entender, no solo para desmitificarlas, sino para usarlas de manera responsable y efectiva.

🎙️ Puedes ver muchas de mis charlas en la sección “Charlas”.

Conversaciones naturales y expresivas#

La Inteligencia Artificial Conversacional está viviendo una era de transformación. Lo que antes parecía ciencia ficción (esas conversaciones naturales y expresivas con máquinas) desde hace unos años ya es una realidad que podemos ver en demostraciones de productos. Y tomemos la palabra realidad entre comillas, ya que normalmente en las demostraciones se busca ese efecto “wow” marquetiniano para captar el interés de inversores y fans tecnológicos.

Pero más allá del marketing, podemos ver dos ejemplos en 2024 que muestran ese salto que nos acerca a la ciencia ficción. Son las demostraciones de GPT-4o2 de OpenAI y de la empresa Hume3, donde los asistentes no solo entienden lo que decimos, sino que responden con emociones, permiten que se les interrumpa respondiendo de manera natural, mostrando elementos paralingüísticos (como ehms) y una expresividad que nos sorprende.

¿Cómo funcionan los asistentes de voz tradicionales?#

Para entender hacia dónde vamos, primero debemos comprender de dónde venimos. Los asistentes de voz tradicionales, como Alexa o Siri, funcionan siguiendo un proceso de cinco fases:

  1. Reconocimiento del habla (ASR): Convierte lo que decimos en texto.
  2. Comprensión semántica (NLU): Interpreta el significado de ese texto.
  3. Gestión del diálogo (DM): Decide qué hacer y qué responder.
  4. Generación de respuesta (RG): Selecciona una plantilla de respuesta en texto y rellena con datos.
  5. Síntesis de voz (TTS): Convierte la respuesta de texto en audio.

Este proceso, aunque aparentemente simple, tiene limitaciones: cada fase puede fallar, y si el reconocimiento de habla inicial no funciona bien, el resto del proceso comunicativo se tambalea. Y de ahí los inevitables “perdona, no te he entendido”.

Puedes leer más sobre cómo funcionan los chatbots en este artículo.

Para solucionar estas limitaciones, tradicionalmente recurrimos al diseño conversacional: un proceso laborioso donde intentamos anticipar las posibles conversaciones que los usuarios van a tener con nuestro sistema, creando guiones y flujos para cada caso de uso, definiendo las respuestas del asistente, y probando y validando en múltiples etapas que es capaz de mantener las conversaciones acorde a la funcionalidad desarrollada.

La revolución de los modelos de lenguaje (LLMs)#

Con los modelos de lenguaje (LLMs) basados en transformers comenzamos a ver una aproximación completamente diferente. Empezamos con BERT4 publicado por Google en 2019, y GPT-35 de OpenAI en 2020, para llegar a la aplicación en diálogos como en LaMDa (Language Model for Dialogue Applications)6 en 2021, o ChatGPT (GPT-3.5)7 en 2022. En los asistentes de voz y chatbots más avanzados, se sustituyen esas tres fases centrales del diálogo (comprensión, gestión y generación de respuesta) por una sola: el propio modelo.

Estos modelos con transformers funcionan de manera similar al predictor de palabras de WhatsApp, pero a una escala masiva. Han sido entrenados con millones de archivos de internet y predicen cuál es la palabra más probable en un contexto determinado. La clave de esa generación del lenguaje tan natural está en los transformers y el mecanismo de atención, tecnologías que permiten generar esa siguiente palabra de una manera sorprendentemente efectiva.

Puedes ver un ejemplo de funcionamiento en el siguiente vídeo:

Como habrás visto, si escribes “En España tú encontrarás muchos…”, la palabra “diferentes” podría ser la más probable en ese contexto. Si te animas, puedes probar con cualquier otra frase desde la web “Transformer explainer”8.


No te pierdas mis últimos artículos. Suscríbete a mi newsletter “Fallback Intent”.


Las voces sintéticas: la otra revolución#

Paralela a la evolución de los modelos de lenguaje, las voces sintéticas o síntesis de voz (TTS) también están experimentando una transformación en naturalidad ya que se están beneficiando de los avances en modelos generativos (como los modelos de lenguaje). Ya no estamos limitados a voces robóticas o genéricas, ahora podemos:

  • Clonar voces: Imitar exactamente cómo habla una persona, su estilo, ritmo y particularidades.
  • Generar nuevas identidades: Crear voces completamente nuevas con características específicas.

Crear un clon de voz de una persona es ahora muy accesible. Se necesitan unos minutos de audio de la persona, y el modelo aprende patrones de pronunciación, incluyendo particularidades regionales. La tecnología es tan avanzada que puede replicar respiraciones, pausas y otros elementos paralingüísticos que hacen la voz más natural y expresiva siempre que tenga datos con esa expresividad.

Estas voces son las que se usan en asistentes como ChatGPT o Hume. Voces expresivas que permiten no solo tener conversaciones tan naturales como las que tendríamos como con una persona, sino que nos permiten crear contenido profesional.

Un aspecto crucial para esa naturalidad es la diversidad de género, de acentos y dialectos, como por ejemplo con voces sintéticas en andaluz9. Con las nuevas tecnologías podemos crear productos que realmente conecten con nuestros usuarios, que se vean reconocidos y sientan ese vínculo necesario para que todo sea más efectivo.

Entender la IA para usarla responsablemente#

La IA conversacional no es magia, son herramientas que podemos usar para romper barreras y crear experiencias más humanas e inclusivas. La clave está en entender qué hay detrás de la tecnología y usarla de manera responsable.

Estas tecnologías están dejando de ser una promesa futurista para convertirse en una realidad que está transformando la manera en que creamos e interactuamos con la tecnología. Los avances en modelos de lenguaje y voces sintéticas han creado experiencias que cada vez son más naturales y expresivas, desde ChatGPT hasta los personajes expresivos de Hume.

Sin embargo, detrás de esta aparente facilidad hay decisiones complejas de diseño, ética y responsabilidad. Como creadores de productos conversacionales, tenemos la oportunidad (y la responsabilidad) de usar estas herramientas para construir un futuro más inclusivo y accesible.

Puedes continuar leyendo la segunda parte de la charla, en la que hablo de IA conversacional responsable en este artículo.


Footnotes#

  1. Nieves Ábalos, 27/09/2024. Charla en #ProductFest24: “La realidad de la IA Conversacional: De qué está hecho Chat GPT”.

  2. OpenAI, 2024. GPT-4o - “Live demo of GPT-4o realtime conversational speech”.

  3. Hume, 2024. EVI 2 - “Compelling personalities (Whimsy) with EVI 2: “Hey Whimsy…"".

  4. Google Research, 2019. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”.

  5. OpenAI, 2020. GPT-3.

  6. Google Research, 2021. “LaMDA: our breakthrough conversation technology”.

  7. OpenAI, 2022. “Presentamos ChatGPT”.

  8. Poloclub. “Transformer explainer”.

  9. Nieves Ábalos. Fonos, 2024. “IA Generativa para voces diversas e inclusivas”.

¿De qué está hecho ChatGPT?
https://nievesabalos.com/blog/de-que-esta-hecho-chatgpt/
Author Nieves Ábalos Serrano
Published at 12 de diciembre de 2024