8 minute read
Audio sobre Internet
por JUan taMaYO, ctS-d*
Este último año hemos visto una
revolución tecnológica en audiovisuales, la conectividad remota desde casa o en oficinas sin contacto de público se convierte en la nueva normalidad, antes teníamos reuniones presenciales con salas diseñadas para una interacción humana, intercambio de elementos y un saludo/despido con un apretón de manos, hoy todo lo hacemos desde la distancia, utilizando una pantalla y una cámara como interfaces de conexión al mundo.
Hablando de conectividad, hay una pregunta que tiene tanto de ancho como de fondo
¿Qué es más importante el audio o el video? Y es una pregunta “filosóficamente” tan difícil como la del huevo y la gallina, no sé cuál fue el primero, pero considero ambos importantes (respuesta salomónica para no herir susceptibilidades).
Mi experiencia profesional me ha llevado a profundizar más el tema del audio que en el video, aunque sigo estudiado mucho este, por lo que este artículo será basado en audio, pero su marco teórico puede ser aplicado fácilmente al video, e invito si algún profesional quiere hacer el ejercicio escrito y nos explique este.
Entrando en el tema que nos interesa, antes de empezar hablar sobre técnica tengamos en cuenta que para hablar sobre internet debemos saber que la transmisión de contenido de cualquier tipo se hace a través de la tecnología IP (Internet Protocol) utilizando Datagramas o Paquetes que transportan la información. Y que, desafortunadamente, en internet no se puede garantizar que los paquetes lleguen completos o incorruptos, que el orden de llegada sea adecuado o que los paquetes no sean duplicados.
El direccionamiento IP entrega un número de 4 segmentos a cada elemento con unas condiciones establecidas, como dirección y mascara de red, no profundizaré sobre esto, aunque es super importante saber la técnica. Adicional del direccionamiento, es importante conocer sobre UDP (User Datagram Protocol) que es el protocolo creado en los 80 para conectar dos dispositivos en una red, pero sin generar un apretón de manos, quiere decir, que el transmisor no sabe cómo llega el paquete a su destino, o en el peor de los casos, si no llega.
Pero ¿cómo hace un UDP para enviar un audio y que este llegue bien a su destino a través de internet? A mediados de los 90 se crea un protocolo RTCP que se puede incluir dentro de un paquete UDP, se denomina Real Time Control Protocol, protocolo de control de tiempo real, el cual permite llevar la información de tiempo con estadísticas de calidad de servicio, transmisión y sincronización de múltiples transmisiones. Básicamente lo que hace el RTCP es ubicar una marca de tiempo dentro del protocolo de transmisión de audio y el receptor cuando tiene el paquete, revisa la información y la organiza para reproducirla en el orden adecuado.
Ya sabemos que para transmitir sobre internet se requieren un modelo de transmisión basado en paquetes de transmisión UDP y que estos llevan un RTCP que es el que da el orden de reproducción. Para lograr la conexión de audio se requiere una señalización, la cual es lograda por un SIP. Este permite hacer el enlace entre transmisor y receptor.
Ya hablamos sobre UDP, RTCP y SIP. Los ingredientes necesarios para una transmisión, pero lo difícil del audio es que, si no entrega la información correcta en el menor tiempo posible, esta información se degrada al llegar al
cerebro y genera incomodidades. Un ejemplo clásico de comunicación, imagen que alguien grita y mientras llega la información, la pregunta que está diciendo, pero mientras preguntas le vuelve a llegar otro grito… entonces no sabes que le están diciendo.
Para poder lograr la comunicación sobre internet sin problemas se debe tener en cuenta que el audio puede ser afectado por dos factores, la compresión y la tasa de bits de red, que hacen que la cantidad de información sea lo más óptima posible, ya que el tamaño de los canales es limitado.
La compresión de audio permite adaptar la tasa de bits de la transmisión en tiempo real a través de redes IP y limitar el tamaño de los datos a trasmitir. Existen dos tipos de compresión, la primera son con algoritmos sin pérdida lo que permite que la calidad de audio se conserve, pero su debilidad es que la relación de compresión es relativamente baja, esto quiere decir que no hay casi ahorro de información. Los algoritmos con pérdida tienen como ventaja que su tasa de bits es constante, se sabe cuánto se va a consumir su transmisión. Pero su gran debilidad es que realizar esta compresión consume más tiempo, aunque solo es de milisegundos, pero si sumamos estos milisegundos en todos los procesos su tiempo puede crecer.
Hay muchos tipos de algoritmos de compresión, unos diseñados específicamente para la voz, como el G711 y el G722, y otros más musicales como MPEG Layer 2, MPEG Layer 3 (MP3), AAC, Opus y aptX, los cuales utilizamos día a día a si no nos demos cuenta. Estos algoritmos de compresión generalmente afectan porciones del espectro sonoro que no consideran tan importante, o inclusive señales acústicamente bajas deciden suprimirlas, para tener un menor contenido y optimizar el espacio de transmisión.
Otra característica es la tasa de bits, esta nos indica cual es la resolución de la captura de información, y está entregada en bits, la cual es la unidad computacional por defecto. Una señal de 16 bits tiene 65.536 opciones de selección, mientras que una señal de 24 bits posee 16.777.216 valores. Entre mayor cantidad de bits se puede capturar una señal más real. Acompañado a esta resolución, existe la frecuencia de muestreo que es el periodo en el cual se toma una muestra, por ejemplo, un sistema con una frecuencia de muestreo de 48KHz, toma 48000 muestras en un segundo, cada 0,021 mili segundo se toma una muestra (21 microsegundos). No confundir la frecuencia de muestreo con la frecuencia de escucha del oído humano.
Lo que hacen los conversores análogos/digitales es convertir una señal análoga en formato digital, y esto hace que una señal que se escucha se convierta en una trama de datos, entre mayor sea la resolución de bits y la velocidad de muestreo, mayor será la cantidad de información almacenada. Para calcular el espacio y ancho de banda requerido se multiplica la resolución en bits, por la frecuencia de muestreo y esto se multiplica por el número de canales, ya que generalmente la señal puede ser estero, 5.1 u otro modelo de transmisión.
Cuando se trabaja en un protocolo de transmisión digital puro se conoce como PCM, tecnologías como Dante, AES67, AVB lo utilizan. Pero esta trasmisión, si se hace por internet, consumirá mucho ancho de banda (lo pueden calcular). Acá es donde se utilizan los algoritmos de compresión para empaquetar la información reduciendo su volumen y capacidad de transmisión.
Ahora bien, si juntamos lo que ya sabemos y lo ponemos sobre Internet posiblemente vamos a tener un poco de problemas ya que internet público no tiene una calidad de servicio lo que hará que existan perdidas de paquetes, paquetes duplicados, paquetes desordenados y un problema complejo que es el Jitter. El Jitter es la fluctuación del retardo a la variabilidad temporal durante el envío de
señales digitales, una ligera desviación de la exactitud de la señal de reloj. Lo que ocasiona ruidos electrónicos en la transmisión de audio, y genera incomodidades al escuchar la información.
Afortunadamente empresas como Digigram (www.digigram) que es líder en el desarrollo de protocolos digitales de transmisión (crearon EtherSound) generaron un modelo demasiado eficiente de transmisión de audio sobre Internet en donde se posee un motor de transmisión de IP inteligente que garantiza la calidad de servicio, reordenando los paquetes perdidos, arreglando el Jitter y entregando una sincronización perfecta en cada unidad.
Esta tecnología viene siendo desarrollada y en constante evolución desde 2009 en donde se entrega la calidad de audio más alta posible independiente del rendimiento de la red. Con una excelente estabilidad de transporte combinando varias estrategias de corrección adaptativa en función de la calidad de la red. Con una transmisión redundante avanzada realizando una corrección de errores hacia adelante (FEC) y una latencia baja extra para tener la mejor opción de producción en vivo en tiempo real. Aunque no creamos la transmisión de audio sobre internet con una calidad mejorada tienen muchas aplicaciones, y considero que migrar del audio de Zoom, Teams u otra aplicación puede ayudar a mejorar algunos sectores educativos y comerciales (inclusive pueden coexistir las aplicaciones con el audio independiente sobre internet). Entre las aplicaciones más utilizadas por estas tecnologías podemos incluir: transmisión broadcast a través de servicios de radio sobre internet. Reuniones uno a uno o uno a muchos para aplicaciones como traducción simultánea, en educación musical en época de pandemia es una gran solución en donde puedo ver el video a través de Zoom, Teams o Meet, pero silenciar el audio de la aplicación y activar un canal de internet solo para el audio.
Para conocer más sobre modelos y tecnologías de transmisión de audio sobre internet en donde deseen tener una excelente calidad de audio no duden en contactarme, que con gusto les puedo asesorar y expandir toda esta información.
*Juan Tamayo, CTS-D, es ingeniero electrónico y actualmente se desempeña como ingeniero de aplicaciones de producto para América Latina de International Sales.