Procesamiento de Audio: Dinámica, Percepción y Sonido Multicanal

Procesadores de Dinámica en Audio Profesional

Características Comunes de los Procesadores de Dinámica (Equipo DBX)

SC (Sidechain): El interruptor/indicador Sidechain permite que el control del detector se efectúe mediante una señal externa, lo que introduce mayores posibilidades creativas. La mayoría de los equipos ofrecen esta opción, ya sea con una entrada de señal específica o con acceso externo a la entrada/salida del detector.
Contour: Este control introduce un filtro paso alto en la cadena del detector, disminuyendo la sensibilidad de su control a las bajas frecuencias. Aunque no es un control muy habitual, se encuentra en algunas unidades.
Knee (Codo): Representa la función de transferencia de un compresor-limitador con diferentes grados de curvatura en el umbral. OverEasy produce un codo suave, a diferencia de la transición brusca que implica su no actuación.
AUTO: Corresponde a un control automático de los tiempos de ataque y caída en función de las características de la señal.
STEREO COUPLE: Permite trabajar en estéreo, enlazando ambos canales.
THRESHOLD (Umbral): Es el nivel a partir del cual se aplica la compresión. Cuanto más alto sea el umbral, más alta tendrá que ser la señal para superarlo. Con un umbral muy alto, es posible que la señal no pase, y viceversa (lo cual aumenta la reducción de dinámica). La elección del umbral depende del efecto deseado.
RATIO (Relación): Indica cuánto se comprime la señal una vez que ha traspasado el umbral. A mayor ratio, mayor reducción de ganancia (con un ratio de 1:1 no hay efecto).
ATTACK (Ataque): Permite decidir, una vez que la señal está dentro de la zona de compresión, cuánto tarda el compresor en empezar a actuar. Un ataque lento (ej. 100 ms) implica una respuesta de reducción de ganancia tardía, mientras que un ataque rápido (ej. 0.1 ms) produce una respuesta inmediata.
RELEASE (Caída/Recuperación): Hace lo contrario al ataque; es el tiempo que tarda el compresor en dejar de actuar una vez que el sonido sale de la zona de compresión.

Funcionamiento Interno de un Procesador de Dinámica

La manipulación o control de la dinámica se realiza electrónicamente mediante Amplificadores Controlados por Tensión (VAC), dispositivos cuya ganancia es función de una señal de control (Vc).

El funcionamiento consiste en obtener una muestra de la señal de entrada, la cual se lleva a un detector que entrega una señal de control (Vc). Esta señal se aplica para gobernar la ganancia del VAC.

El corazón de estos sistemas es el detector, formado por dos secciones en cascada y encargado de:

Extracción de Información del Nivel: Extrae información del nivel de la señal a procesar. Para ello, primero se rectifica la señal y luego se integra, obteniendo una tensión continua (DC) proporcional a la amplitud de la señal de entrada. A toda esta etapa se le denomina rectificador.
Conversión a Señal de Control: La segunda etapa del detector es el convertidor. Su misión es obtener la señal de control de la ganancia (Vc) en función de la señal ya rectificada. Es importante destacar que la función Vc vs. la señal rectificada no tiene por qué ser lineal, y esta característica es la que establece la modificación de la dinámica.

Control de Puertas de Ruido (Equipo BSS)

Los equipos BSS suelen estar divididos en tres secciones principales: señal de control, umbral y tiempo de caída.

Sección de Señal de Control (KEY): En la parte inferior izquierda, se encuentra la sección dedicada a la señal de control, que, al ir al detector, gobernará la apertura y cierre de la puerta. A esta señal se la suele denominar «KEY». Es común que sea posible filtrarla, forzando a que el disparo de la puerta se deba a su propia señal (la que nos interesa) y no a la de instrumentos próximos. En algunas unidades, el filtrado se realiza mediante un filtro paso banda (KEY FILTER) en el que se selecciona su anchura de banda (WIDTH OCT), aunque lo habitual es hacerlo mediante un filtro paso bajo y otro paso alto. También es normal la posibilidad de escuchar la señal de control, lo que se efectúa mediante KEY LISTEN.
Sección de Ajuste del Umbral (Threshold): Suele ser la más sencilla, contando con el potenciómetro correspondiente (Threshold) e incluyendo indicadores visuales tanto del nivel de la señal como del estado de la puerta.
Control de Tiempos: En el control de la puerta, se gobiernan el tiempo de caída (RELEASE) y el tiempo de ataque, que por defecto suele ser muy rápido (FAST).

Características de los Procesadores de Dinámica

Características Estáticas

Están asociadas al comportamiento del convertidor y describen la ley que debe seguir la ganancia en función de los niveles de la señal de entrada. (En un dibujo, se señalaría la zona de amplificación, saturación y la curva de transferencia).

Características Dinámicas

Están asociadas al detector, y dentro de este, al integrador. El integrador necesita un tiempo finito para dar una tensión que refleje el nivel de la señal, no pudiendo hacer esta evaluación de forma instantánea. Estas características describen la rapidez del sistema en adaptarse a los continuos cambios de ganancia. Para ello, se definen:

Tiempo de Ataque: Velocidad de adaptación de la ganancia cuando la señal crece.
Tiempo de Recuperación (o Caída): Velocidad de adaptación de la ganancia cuando la señal decrece.

Tipos de Compresores

Compresor Lineal

Estos compresores amplifican las señales inferiores a un nivel determinado, llamado Punto de Rotación (PR), atenuando los niveles de señal superiores a este. El mayor inconveniente de utilizar relaciones de compresión (RC) elevadas reside en que las variaciones de ganancia que debe producir el Amplificador de Ganancia Controlada (VAC) son también considerables, lo que introduce elevadas tasas de distorsión.

Compresor de Ganancia Constante (G cte)

Tienen dos zonas de operación:

Una zona que corresponde al tratamiento de los niveles altos de señal, en la cual las señales de entrada superiores a un nivel umbral de compresión (UC) son afectadas por una relación de compresión (RC).
Y una zona de procesado de señales inferiores al umbral, las cuales son amplificadas con una ganancia constante denominada Factor de Compresión (FC).

Aunque este sistema disminuye en gran parte la aparición de distorsión transitoria, esta todavía se sigue produciendo al procesar una señal de muy bajo nivel. Aquí es donde aparecen los compresores bilineales, que ofrecen baja distorsión transitoria y baja compresión efectiva.

Compresor-Limitador

Estos sistemas actúan atenuando las señales de nivel superior a un cierto umbral (UC) mediante una relación de compresión (RC), mientras que dejan pasar inalteradas las señales de nivel inferior a dicho umbral. Con valores elevados de la RC (a partir de 10:1), el sistema comienza a funcionar como limitador, de manera que las variaciones de amplitud en la salida son mínimas.

Puerta de Ruido (Noise Gate)

Estos procesadores se utilizan para eliminar el ruido de fondo en una toma de sonido. En cuanto a sus características transitorias:

Tiempo de Ataque: Corresponde al paso de atenuación a ganancia unitaria. Debe ser extremadamente rápido para no perder nada de señal; en la práctica, no supera unos cuantos milisegundos.
Tiempo de Recuperación: Corresponde al tiempo empleado en pasar de ganancia unitaria a atenuación. Suele ser relativamente largo, pudiendo llegar a ser de 1 o 2 segundos. El objetivo es evitar que la puerta se esté abriendo y cerrando continuamente en segmentos muy seguidos.

De-esser (Reductor de Sibilancia)

También denominado reductor de sibilancia, es un sistema destinado al procesado de canales vocales con la finalidad de disminuir el efecto molesto que producen los sonidos sibilantes («s» y «ch»), muy acentuados en determinados tipos de habla.

El modo de trabajo del sistema consiste en el uso de un compresor-limitador no en todo el margen de audio, sino específicamente en la banda de frecuencias donde aparecen los armónicos de elevada energía de los sonidos sibilantes (alrededor de 6 kHz). Así, con un filtro paso-banda se separa esta zona del espectro de la señal, se limita su nivel y se aplica a un sumador junto con la señal original, de la cual, mediante un rechazo de banda, se eliminan estas frecuencias. Este sistema constituye una aplicación específica de un compresor-limitador y, evidentemente, solo tiene validez en el procesado de señal vocal.

Percepción Auditiva y Psicoacústica

Umbral de Perceptibilidad

El umbral de perceptibilidad es el momento en que se percibe un sonido, y su valor depende de cada persona. Las frecuencias más difíciles de percibir son las graves, donde se necesita subir mucho el nivel para oírlas.

Clasificación de frecuencias:

Frecuencias Bajas: Por debajo de 100 Hz.
Frecuencias Medias: De 250 Hz a 3000 Hz.
Frecuencias Altas: Más de 3000 Hz.

Funcionamiento del Oído

El oído se comporta como un transductor, que convierte las señales sonoras en algo fisiológico que no es lineal, ni responde por igual en toda la gama de frecuencias, ni ante diferencias de nivel.

Fenómenos de Enmascaramiento Auditivo

El problema del oído se produce cuando determinadas señales tapan a otras señales que se están produciendo simultáneamente. Existen dos fenómenos de enmascaramiento:

Enmascaramiento en el Tiempo: Una señal que llega después puede enmascarar a una señal que llega antes (pre-enmascaramiento o post-enmascaramiento).
Enmascaramiento en Frecuencia: Cuanto más bajo es el nivel, más cercano está al ser simétrico respecto a la señal enmascarada.

Reglas de Enmascaramiento

Una banda de ruido produce más enmascaramiento que un tono puro.
El enmascaramiento nunca es simétrico.
Cuando se eleva el nivel, el enmascaramiento es siempre hacia arriba (frecuencias más altas) y muy poco hacia abajo (frecuencias más bajas).

Metadatos en Audio Digital

Los metadatos son algoritmos que se emplean para codificar la señal y hacerla compatible con un sistema estéreo. Son campos adicionales digitales con información auxiliar.

Proporcionan parámetros clave diseñados para adecuar la escucha de la «banda sonora». Estos parámetros incluyen:

Nivel de Diálogo: Disminuye el volumen de audio, es decir, normaliza los niveles de las diferentes plataformas, consiguiendo un nivel constante y agradable.
Control de Rango Dinámico: Ofrece la flexibilidad de escuchar un programa con un menor rango dinámico.
Downmixing: Es una característica de los sistemas Dolby que permite que una configuración multicanal pueda ser reproducida por menos canales de altavoces.

Sistemas que emplean metadatos: DVD, Dolby Digital, MPEG-2.

Diferencias en la Escucha: Auriculares vs. Altavoces

En este proceso se ven involucrados la localización suma y la ley del primer frente de onda. Las interferencias que tendremos serán las reflexiones que produce la sala junto con la señal que producen los altavoces.

Escucha con Auriculares (Cascos)

Se pierde parte de la sensación de espacialidad (tanto en la disposición del músico como la influencia del lugar donde se toca), a no ser que se tenga una mezcla específica para auriculares.
Se pierden las reflexiones producidas por el recinto, llegando a cada oído solo las radiaciones emitidas por las fuentes, es decir, anula el efecto de la sala (se usan para hacer ensayos).
Además, el grado de coherencia de la señal no depende de la sala.
Con todo esto, podemos simular un campo sonoro libre.

Escucha con Altavoces

Permite tener una sensación natural de espacialidad, donde a cada uno de los oídos le llegará una señal del altavoz derecho y parte del otro altavoz. Las diferentes señales que podemos tener son en estéreo y mono.

Cada una de estas señales no depende del número de altavoces, sino que está en relación con el plano horizontal de la cabeza. Así:

La señal estéreo es una señal que tiene algo de coherencia e incoherencia para que parte de un canal se encuentre en el otro y viceversa.
La señal mono es una señal coherente, donde todas las fuentes sonoras emiten lo mismo y, mediante la localización suma, da la sensación de tener un único suceso auditivo.

Por tanto, el grado de coherencia de la señal depende de la sala.

Sistemas de Audio Multicanal

Tipos de Sistemas Multicanal

Sistemas Analógicos: Sensurround (1974) y Dolby Surround (1976).
Sistemas Digitales: Dolby Digital y tecnología DTS.

Dolby Surround

Utiliza un algoritmo de codificación matricial, que «incrusta» un canal entre otros dos sin que exista una pista específica de salida para un amplificador de ese canal. En cuanto al canal trasero, también estará incorporado en el canal izquierdo junto con el central.

Dolby Digital AC-3

Tiene un coeficiente de nivel de 90 dB. Para ser compatible con los sistemas anteriores, tendrá 4 canales en la banda óptica y 6 en la banda perforada. Su arquitectura más conocida es la 5.1, con cinco canales principales: izquierdo, derecho, central, envolvente izquierdo y envolvente derecho.

El canal LFE (Low-Frequency Effects) es el canal de efectos de baja frecuencia, que solo produce hasta 120 Hz. No reduce la sonoridad de los restantes canales. Al ser un canal independiente, es compatible con los demás.

Dolby Digital (Mejora)

Esta es una mejora del sistema Dolby Surround. El sonido envolvente central es radiado por los altavoces traseros centrales, y el sonido envolvente lateral es radiado por los altavoces traseros laterales.

DTS (Digital Theater Systems)

Es similar a Dolby Digital. Su principal ventaja es que comprime perceptualmente menos la señal de audio (para ocupar menos espacio, utilizando un algoritmo psicoacústico que elimina menos información que el otro), lo que resulta en una mejor calidad de sonido.

DTS también ha mejorado a 6.1, añadiendo un canal trasero, destinado principalmente al mercado de consumo.

Claves del Sonido Multicanal

Existen tres claves fundamentales para el sonido multicanal:

Es necesario tener un recinto que gestione adecuadamente los graves que se producen en el mismo.
Los formatos multicanal existentes deben cumplir con ciertas características, como estándares de mezcla, respuestas en frecuencia y grabación.

Métodos de Codificación Multicanal

Matricial: Incrusta un canal virtual entre la codificación de los canales izquierdo y derecho.
Discreta: Cada canal lleva su propia información sin depender de la información de otros canales.