¿Estás buscando la forma de implementar voces de Inteligencia Artificial a tu pódcast o proyecto audiovisual? En el pódcast y la industria audiovisual, que es donde trabajo, muchos profesionales tienen curiosidad sobre las herramientas de Inteligencia artificial que convierten texto a voz como Murf, ElevenLabs, Google Text-to-Speech o Descript.
Yo sé, da un poco de miedo o asombro estos demos con voces cada vez más realistas. Pero tuve la experiencia de trabajar en un equipo de pódcast que decidió usar una voz creada por Inteligencia Artificial en una de las partes del proceso de producción y fue una experiencia reveladora.
Hoy les quiero compartir mis grandes lecciones, buenas prácticas y conclusiones de trabajar con una voz de Inteligencia Artificial para un pódcast.
La voz de inteligencia artificial funciona sólo para el proyecto adecuado.
En este caso, íbamos a hacer un podcast en formato explainer que tenía una celebridad como anfitriona. Trabajar con celebridades significa siempre el reto de una agenda apretada y de un acceso limitado a su voz. Por supuesto, son proyectos con una gran expectativa detrás y por ello el cliente final quería escuchar y aprobar cada episodio antes de pasar a diseño de sonido. Así que nuestro reto fue:
¿Cómo comprobar que este formato se podía sostener en varios episodios sin pedir más tiempo de la celebridad?
Ahí decidimos en conjunto utilizar una voz de Inteligencia Artificial para “grabar” la voz de la celebridad y desarrollar el formato, hasta el punto en que el cliente podía escucharlo lo más parecido a como iba a quedar. Esta solución, por cierto, se ha usado en podcasts narrativos hace rato (por ejemplo, poniendo a alguien más del equipo a grabar las tomas de anfitrión), pero esta fue la primera vez que intentamos integrar la IA para hacer el proceso más eficiente. En todo caso, la voz de robot no funciona para podcasts conversacionales o podcasts donde su narración tenga que atrapar la atención del oyente por más de 2 o 3 minutos.
Por una sencilla razón: nuestro cerebro humano conecta con la voz humana. Por más de que la herramienta se acerque, siempre sabemos cuando es algo artificial. Y las voces de IA en habla hispana tienen mucho menos desarrollo y realismo que las voces en inglés.
Hay cada vez más servicios ofreciendo texto a voz, pero no todos ellos tienen voces con buen español y no todos tienen el mismo costo. Para esta producción probamos varios y terminamos eligiendo Murf porque tenía la voz que nos gustó más. Pero:
Advertencia para publicistas: La voz generada por IA también tiene copyright y no por el hecho de crearla tienes derecho a usarla comercialmente.
Cada servicio tiene sus condiciones al respecto. Lean la letra pequeña antes de tomar la decisión. Continúo:
Crear las voces en AI tiene una curva de aprendizaje y un tiempo de producción.
Sacar una voz para un episodio de 20 minutos me tomaba aproximadamente 4 horas al inicio de la temporada y 3 horas para el final, cuando ya conocía la herramienta. Tenía que escribir cada párrafo, escucharlo y editarlo. Luego insertar pausas y signos de puntuación para que la voz robotica genere los cambios y las inflexiones naturales de una voz humana. Sacar “la locución de IA perfecta” todas las veces implicó un tiempo de entrenar a la máquina. El resultado nunca va a ser de igual calidad que una voz natural, pero funcionó como maqueta del contenido.
¿Quedó mal una frase? ¿El cliente quiere probar otro inicio? ¿Quieren agregar una mención? Hacemos el arreglo en la voz IA y reenviamos al cliente. En este proyecto hicimos todas las rondas de cambios primero con el material que ya teníamos grabado y la narración de la voz de IA, hasta llegar al guión final.
Anticipar el resultado final del pódcast no es que redujera el tiempo de producción, sino que transfirió el costo de hacer cambios editoriales en menores proporciones a lo largo del tiempo, llevando la producción de una forma más tranquila y sobretodo, cuidando la relación con la celebridad. No hay nada mejor que llegar a grabar sabiendo que el contenido ya está aprobado.
¿Usar voz de IA hace el proyecto más barato?
No necesariamente. Desde el lado de postproducción de sonido, me tomó el mismo tiempo en meses hacer la postproducción de audio. Aparte del pago que le harías a un talento voice over, la ingeniería, editorial y demás sigue tomando el mismo tiempo, su talento no debería valer menos por usar una nueva tecnología.
De hecho es más trabajo porque hay que aprender nuevos skills, de entrenamiento para machine learning. Una vez que se grabó al talento: Tuve que hacer edición fina también, por más de que hubieran placeholders, habían desfases de segundos. Y en total me tomó casi el mismo tiempo que otros Voice Mixes. Pero sí hay una gran ganancia.
Trabajar con voz IA implicó menos estrés para el equipo en postproducción.
La ganancia que tiene es que anticipa el resultado al cliente y no hay una mejor sensación que la de llegar al estudio, con tu celebridad agendada y la tranquilidad de tener el contenido aprobado. El desgaste del anfitrion(a) disminuye ya que hay menos horas de grabación y el equipo editorial llega con mucha seguridad, teniendo problemas resueltos. Ahí es donde se ve la reducción de costos.
En la producción general, usar esta herramienta generó más interacciones de equipo pero con menos intensidad o carga de estrés de cara a la postproducción. Había una tranquilidad para el cliente también, sabiendo que la pieza final cumplía con las expectativas.
Otros escenarios donde veo que la voz con Inteligencia Artificial puede beneficiar al equipo:
Para hacer pruebas de narrativa.
Para hacer pilotos.
Para prototipar ideas en un pódcast de ficción.
Es más facil imaginar la calidad sonora que una buena narrativa. Entonces utilizar voz de Inteligencia Artificial ayuda a anticipar cómo suena el guión en audio y qué hace falta ajustar. Por eso sigo creyendo en la importancia del equipo editorial y del trabajo en equipo, más allá de la herramienta tecnológica.
Una vez que el equipo estuvo en sintonía con lo que hacíamos, toda la temporada se disfrutó mucho más. Y hoy estoy seguro de que lo volvería a hacer.
Si quieren saber más sobre mis técnicas de producción, visiten las otras entradas del blog Damnura. Y si tienes un proyecto donde quisieras implementar esta idea, escríbeme a danmura@gmail.com
Agradecimientos a Cristy Marrero, Stephen Robinson, Angelina Mosher, Laura Ubaté, Daniela Sarquis y todo el equipo de 3Pas. Muy pronto compartiré en mis redes nuestro resultado final.
コメント