Parte 1: Fundamentos VoIP para la Era IA

Del Big Picture a los Paquetes de Voz - Parte 1

🚀 Presentación 3 (Parte 1): Fundamentos VoIP para la Era IA

💡 Del Big Picture a los Paquetes de Voz

1. La Gran División: Circuitos vs. Paquetes

Para entender el poder de la Telefonía IP, primero debemos entender de dónde venimos.

Telefonía Tradicional: Conmutación de Circuitos
- Imagina una llamada como una carretera de cobre física y exclusiva entre tú y la otra persona.
- La central telefónica (la PSTN - Public Switched Telephone Network) te reserva ese camino durante toda la llamada.
- Ventajas: Calidad garantizada, cero interferencias.
- Desventajas: Terriblemente ineficiente. Si nadie habla, ¡la carretera sigue reservada y pagas por ella! No es flexible y la voz no es más que una señal eléctrica.
Telefonía IP: Conmutación de Paquetes
- Imagina tu voz siendo digitalizada, troceada en miles de pequeños paquetes de datos, cada uno con una dirección GPS (la IP de destino).
- Estos paquetes viajan por internet junto a emails, videos y páginas web, cada uno buscando la ruta más rápida.
- El teléfono de destino los recibe, los reordena y los convierte de nuevo en tu voz.

La Analogía Clave: La telefonía tradicional era un tren que iba por una sola vía. La Telefonía IP es una flota de coches inteligentes (Waze/Google Maps) que usan todas las autopistas disponibles para llegar al mismo destino.

2. La Consecuencia Fundamental: La Voz ahora es DATA

Este cambio de paradigma es la razón por la que estamos en este curso.

Si la voz ya no es una señal eléctrica en un cable, sino datos digitales en una red, entonces podemos hacer con ella lo mismo que hacemos con cualquier otro dato:

Almacenarla (Grabación de llamadas)
Copiarla (Bifurcación de llamadas)
Analizarla (Transcripción, análisis de sentimiento)
Modificarla (Cancelación de eco, inserción de audio)
Enrutarla con Lógica Compleja (Enviar una llamada a una API antes de que llegue a un agente)

La Telefonía IP no es solo “llamar por internet”. Es la liberación de la voz de sus ataduras físicas, convirtiéndola en un recurso programable. Es el pilar sobre el que se construye toda la comunicación inteligente moderna.

3. La Trinidad de Protocolos VoIP: El Equipo de Gestión de la Llamada

Una llamada IP no es un solo protocolo, es una colaboración perfectamente orquestada por un equipo de tres especialistas.

SIP (Session Initiation Protocol): El Gerente
- Rol: Negocia, establece y finaliza la llamada. Es el “cerebro” de la operación. Se encarga de la señalización.
- Función: Localiza al destinatario, hace sonar el teléfono, gestiona la transferencia, pone la llamada en espera y la termina.
- Naturaleza: Es un protocolo de texto, muy parecido a HTTP (el protocolo de la web).
RTP (Real-time Transport Protocol): El Transportista
- Rol: El caballo de batalla. Su única misión es transportar los paquetes de audio (y video) de un punto a otro, lo más rápido posible.
- Función: Envía el flujo de voz una vez que SIP ha hecho su trabajo.
- Naturaleza: Es un flujo constante de datos, no le importa si algún paquete se pierde, prioriza la velocidad sobre la fiabilidad absoluta.
SDP (Session Description Protocol): El Contrato
- Rol: El asistente técnico del Gerente (SIP).
- Función: Describe las capacidades técnicas de los participantes. Es un “contrato” que dice: “Yo hablo estos idiomas (códecs), mi dirección es esta (IP) y puedes encontrarme en esta oficina (puerto)”.
- Naturaleza: No es un protocolo independiente, es un bloque de texto que viaja dentro de los mensajes SIP.

En resumen: SIP establece la llamada, SDP define los términos técnicos, y RTP transporta la voz.

4. Entendiendo los Códecs: El Arte de la Compresión

Un Códec (Coder-Decoder) es un algoritmo matemático que comprime (codifica) el audio en el origen y lo descomprime (decodifica) en el destino.

¿Por qué los necesitamos? El audio digital sin comprimir es enorme. Una llamada de un minuto con calidad de CD ocuparía varios megabytes, demasiado para muchas conexiones de internet.
El Eterno Balance: Cada códec es un compromiso entre:
1. Calidad de Audio: ¿Qué tan nítida y fiel es la voz?
2. Ancho de Banda: ¿Cuántos datos consume por segundo (Kbps)?
3. Uso de CPU: ¿Cuánto poder de procesamiento se necesita para comprimir/descomprimir en tiempo real?

5. El Espectro de los Códecs: De la Alta Fidelidad a la Eficiencia

Pensemos en los códecs como formatos de archivo de audio:

G.711 (alaw/ulaw) - “El .WAV de la Telefonía”
- Calidad: Excelente. Es básicamente audio sin comprimir.
- Ancho de Banda: Alto (~87 Kbps).
- Uso de CPU: Muy bajo.
- Caso de Uso: Redes locales (LAN) o cuando la calidad es la máxima prioridad.
G.729 - “El .MP3 Clásico”
- Calidad: Buena, comparable a una línea telefónica tradicional.
- Ancho de Banda: Bajo (~32 Kbps).
- Uso de CPU: Moderado.
- Caso de Uso: Conexiones a internet con ancho de banda limitado (ADSL, 3G).
Opus - “El Códec Moderno y Adaptativo”
- Calidad: Excelente, desde calidad telefónica hasta Full HD.
- Ancho de Banda: Variable y muy eficiente.
- Uso de CPU: Variable.
- Caso de Uso: Es el estándar para WebRTC y aplicaciones modernas. Es flexible y se adapta a las condiciones de la red.

6. La Conexión con la IA: Basura Entra, Basura Sale (Garbage In, Garbage Out)

Esta es la primera y más importante lección al integrar VoIP con IA: La calidad del audio lo es todo.

Un modelo de IA de Voz-a-Texto (como Whisper de OpenAI) es increíblemente bueno, pero no es mágico. Si le alimentas con audio de baja calidad, la precisión de la transcripción se desplomará.
Impacto del Códec:
- Audio con G.711: Nítido y claro. La IA escucha perfectamente cada palabra. La transcripción es precisa en un 99%.
- Audio con G.729: Comprimido, con posibles “artefactos” (sonidos metálicos). La IA puede confundir palabras. La precisión puede bajar al 85%.

Pregunta para un millón de dólares: ¿El cliente dijo “Quiero cancelar mi cuenta” o “Yo ya pagué mi cuenta”? La elección del códec puede cambiar por completo el significado y el resultado de una interacción analizada por IA. Para nuestro proyecto, la alta calidad de audio no es un lujo, es un requisito.

7. La Filosofía PJSIP: Una Arquitectura Modular para el Mundo Moderno

En Asterisk 22, la gestión de SIP se realiza exclusivamente a través de PJSIP. Es crucial entender que no es solo un reemplazo de chan_sip, es una forma completamente nueva y superior de pensar.

PJSIP descompone la idea de un “usuario” en varios objetos lógicos e independientes que se vinculan entre sí.

Transport: Define CÓMO y DÓNDE escucha Asterisk las conexiones SIP (ej. en la IP 0.0.0.0 por el puerto UDP 5060).
Auth: Define QUIÉN es un usuario. Contiene el nombre de usuario y la contraseña. Su única función es la autenticación.
AOR (Address of Record): Define DÓNDE se puede localizar a un usuario. Es el “registro de contactos”. Puede tener múltiples ubicaciones (ej. un teléfono de escritorio y una app móvil para la misma extensión).
Endpoint: Define QUÉ puede hacer un usuario. Es el perfil completo: qué códecs puede usar, a qué contexto del dialplan pertenece, cómo maneja el NAT, etc.

La Magia de la Modularidad: Esta separación nos da una flexibilidad inmensa. Podemos tener un endpoint que usa múltiples métodos de auth, o un aor que se asocia a varios endpoints. Es la base para configuraciones complejas y robustas. En el próximo taller, veremos cómo se traduce esto en el archivo pjsip.conf.

Resumen de la Parte 1 y Próximos Pasos

Hemos entendido el salto de circuitos a paquetes, convirtiendo la voz en datos programables.
Conocimos al equipo de gestión de llamadas: SIP, RTP y SDP.
Aprendimos sobre los Códecs y su impacto directo en la calidad del audio para la IA.
Tuvimos nuestra primera introducción a la filosofía modular de PJSIP.

En la Parte 2, nos sumergiremos de lleno en el corazón de la llamada: Analizaremos el flujo de un diálogo SIP paso a paso y traduciremos la teoría de los objetos PJSIP a una configuración real en Asterisk.

🚀 ¡Manos a la Obra!

🚀 Presentación 3 (Parte 2) - El Corazón de la Llamada SIP

👉 Ir a la Parte 2: El Corazón de la Llamada SIP

03-voip-protocolos-codecs