Chatbot, voicebot, aplicaciones de voz, IVR, GPT-3: ¿qué son?

Alessio Pomaro
5 min readOct 9, 2020

El universo de los sistemas conversacionales propone ahora varias soluciones, que se actualizan muy a menudo. Con este post intentaré darte algo de claridad, dándote algunas ideas sobre cómo puedes pensar y elegir según tus necesidades.

Aplicación de voz

Si desea crear una aplicación de voz, en el entorno de Amazon (por lo tanto, una habilidad para Alexa), utilizará Alexa Skills Kit:

Si deseas implementar una Google Action, existen al menos dos soluciones:

Por supuesto, la segunda es una herramienta nueva, y fue creada ad hoc para Google Actions, así que si tu proyecto se limita a esto, no tienes nada más que pensar. Si, por otro lado, Google Action es uno de los puntos de contacto a través de los cuales se pone a disposición un agente conversacional, entonces Dialogflow podría ser la solución más adecuada.

En el siguiente video, encontrarás una comparación entre las dos herramientas.

En la siguiente publicación, sin embargo, algunas de mis consideraciones al respecto:

Chatbot y Voicebot

En este caso, para la creación de un chatbot disponible en una página web, pero también en otros canales como Facebook Messenger, Telegram, Slack, etc., el abanico de posibilidades es considerablemente amplio.

La primera elección debe hacerse entre un sistema NLU (comprensión del lenguaje natural)local” y “basado en la nube”.

En el primer caso, recomiendo usar Rasa (http://bit.ly/rasa-convai), un sistema de código abierto muy flexible, que permite diferentes opciones de implementación (on-prem, nube privada, nube de terceros) , que se puede integrar prácticamente en cualquier lugar y tiene una comunidad muy activa. Está claro que utilizar una solución de este tipo implica un mayor conocimiento técnico.

En el segundo caso, existen varias soluciones,

  • Como el Dialogflow mencionado anteriormente (también en la nueva versión CX — http://bit.ly/dialogflow-cx),
  • Pero también tenemos Lex de Amazon AWS (https: //amzn.to/2DVruor),
  • Asistente de IBM Watson (http://bit.ly/watson-ibm-assistant),
  • Bot Service de Microsoft Azure (https://bit.ly/azure-bot-service),y muchos otros.

El nivel de todos estos servicios es altísimo, debiendo hacerse la elección entre los diferentes sistemas, además del precio, considerando

  • Las herramientas que ofrecen de soporte (para la creación del agente, para la formación, para los servicios de análisis, etc.) y
  • Las integraciones disponibles para los canales de destino.

Todos los servicios, sin embargo, se pueden utilizar a través de API, y esto garantiza la posibilidad de integración con prácticamente cualquier ecosistema.

¿Cómo ocurre la interacción de voz en su lugar? Esto depende del punto de contacto a través del cual el usuario interactuará con el agente conversacional. Es posible utilizar sistemas TTS (Text To Speech) y STT (Speech To Text) interconectados con el agente, en caso de que necesite, por ejemplo, voces personalizadas, o utilizar aquellas que normalmente están integradas en el motor NLU.

Las API de Dialogflow, por ejemplo, si se configuran correctamente, también aceptan archivos de audio en lugar de entrada de texto y devuelven el audio correspondiente a la respuesta del agente.

Sistemas telefónicos (IVR)

La creación de un sistema telefónico automatizado es simplemente el uso de uno de los puntos de contacto a través del cual es posible exponer al agente conversacional.

Por lo general, los motores NLU ofrecen interfaces nativas con servicios telefónicos en la nube. Esto permite, por ejemplo, utilizar un número de atención al cliente, al que responde directamente el agente desarrollado con Dialogflow, con Rasa u otros.

Incluso si la interfaz no es nativa, la comunicación a través de API entre estos sistemas permite una gestión muy flexible de las llamadas telefónicas y el flujo de comunicación.

GPT-3 VS agentes conversacionales especializados

Si tuviéramos un desafío entre un chatbot desarrollado con Rasa y GPT-3, ¿quién ganaría?

Mark Ryan hizo una prueba fantástica descrita en la siguiente publicación: http://bit.ly/gpt3-vs-chatbot-rasa y este video.

En la práctica, se hizo un agente conversacional con Rasa respondiendo preguntas genéricas de películas (desarrolladas en 4 meses y capacitadas con una gran base de datos), y se hicieron 7 preguntas al chatbot y GPT-3.

Rasa respondió correctamente 6 preguntas, GPT-3 en lugar de 5, pero, dando sugerencias a GPT-3, logra el mismo resultado.

Entonces, ¿un sistema entrenado con datos genéricos puede reemplazar a agentes especializados en dominios específicos? ¡Absolutamente no! Imagine, por ejemplo, si, en lugar de película, el agente hubiera sido un experto en un dominio mucho menos genérico como la asistencia en máquinas CNC … ¿cómo habría sido el desafío?

Sin embargo, es asombroso cómo GPT-3, con muy poca capacitación adicional, equivale a un agente que tardó meses en desarrollarse.

En mi opinión, y siempre lo he estado apoyando desde entonces, la combinación de los dos sistemas puede ofrecer un servicio completo, es decir un agente preparado en el tema principal y soporte para solicitudes genéricas, o una segunda oportunidad para dar respuestas por si acaso. la formación del agente no es suficiente.

Conclusiones

Como puede adivinar, la solución que se adapte a sus necesidades debe evaluarse mediante un análisis cuidadoso y puede incluir el uso de incluso más elementos que se ven en la publicación. Este es el enfoque que usamos en Voice Branding para crear sistemas de conversación personalizados.

Voice Branding: voice solutions for brands
Voice Branding: voice solutions for brands

Alessio Pomaro (https://linkedin.com/in/alessiopomaro/)

--

--

Alessio Pomaro

Head of AI @ Search On Media Group, Docente, Speaker, Autore