lunes, 27 de abril de 2009

Evolución VoIP

1. Introducción

En estos días nadie cuestiona el papel fundamental que han tenido las comunicaciones en todo el mundo, con más o menos matices parece claro que las comunicaciones han generado una riqueza en el mundo gracias sobre todo al intercambio de información en tiempo real.

Este trabajo no va cuestionar la importancia en cuanto al intercambio de información sino que va a analizar los comienzos de una “nueva” tecnología, llamada VoIP que intenta abrirse camino en el sector de las telecomunicaciones.

En nuestros días y gracias a la llegada de Internet se ha transformado la forma de entender los servicios de telecomunicaciones. Aunque está red de redes surgió con la finalidad de servir de soporte al intercambio de datos, poco a poco se ha ido viendo su potencial para intercambiar cualquier tipo de información ya sean datos, voz, video e, incluso, radio o televisión.

Hoy contamos con una tecnología de voz, datos y video sobre redes IP (Internet Protocol). La calidad de este servicio ha ido en aumento, convirtiéndose en nuestros días como uno de los elementos más fiables en cuanto a comunicaciones.

Desde el punto de vista de la tecnología, la Voz sobre IP, VoIP es una idea bastante simple: convertir la señal analógica de la voz en información digital, empaquetarla, transmitirla y realizar el proceso inverso en el destino. Sin embargo el utilizar todo esto requiere la utilización de todo un conjunto de tecnologías que han necesitado años de mucho desarrollo y mejora.

El objetivo de este trabajo es entender que es la tecnología VoIP, para que se usa, como lo aprovechan las empresas, protocolos y por último la integración de esta tecnología en teléfonos móviles.

2. ¿Qué es la telefonía IP?

La telefonía IP, más comúnmente llamada VoIP (Voice Over Internet Protocol) , se va a encargar de convertir las señales analógicas en digitales. En un proceso que se conoce como digitalización de la voz. De acuerdo con Martinez (2002) la señal analógica es aquella que varía de forma continua, como la voz humana, en contra tenemos la señal digital binaria que es cuando el número de estados posibles son dos conocidos como 0 y 1.
Pero, ¿Cómo es el proceso de digitalización de esta señal?
Para Herrera (1998), en los sistemas de transmisión digital se diseñan para que permanezcan eléctricamente estables en uno de los estados. Como podemos ver en la figura 1.1, apagado será el valor 0 y encendido el valor 1.

El proceso de digitalización de la voz consistía en tomar una muestra de voz, cuantificarla y convertir este valor en un número binario. Una vez hecho esto y tal y como muestra la figura 1.2. Para poder llevar a cabo la conversión se necesitará un regenerador que implique la detección de una señal que se recibe y la creación de una nueva con forma rectangular. Esto es lo único que se necesita en el periodo de transformación.

Como se ha mencionado anteriormente, las primeras conversiones de analógico a digital suponían simplemente tomar muestras periódicamente e ir convirtiendo el valor de la amplitud de cada muestra en información binario, hoy por hoy, este proceso se ha completado con técnicas de codificación que permiten mantener unos buenos niveles de calidad de sonido mucho menores y usando el ancho de banda, que no es más que la velocidad de transmisión.

El proceso de codificación y decodificación lo podemos meter en el mismo saco ya que para que internet pueda manejar cualquier información analógica como la voz, es necesario que ésta se convierta previamente en digital. Por ello para que esto funcione ambos extremos han de contar con el mismo códec. Justamente ahí intervienen los órganos reguladores como la UIT-T, que es el organismo regulador que ha ido marcando las pautas actuales. También debemos destacar el G.729, que consigue elevados niveles de calidad con una baja velocidad de transmisión.

Un resultado claro es que al existir varios sistemas de digitalización, no todas las aplicaciones VoIP son compatibles entre sí. Por eso cada empresa que se dedica al mundo de VoIP ofrece conectividad solamente con sus clientes. Como puede ser el caso de Skype.

¿Cómo se puede medir la calidad de la voz?

En la página web de la empresa Integrated (2009) nos explican cómo se puede medir la calidad de voz en las comunicaciones telefónicas VoIP. En general no se habla de calidad de sonido si no de calidad de audición, conversación y transmisión.
Aunque es una tarea compleja existen diversos métodos normalizados para realizar mediciones de calidad de voz. Los más conocidos son MOS, PSQM y PAMS.
En este caso nos vamos a centrar en el sistema de medición MOS. Este sistema como podemos ver en la figura 1.3 y cuyas siglas son Mean Opinion Score (Valoración Media de Opinión) y según nos define Integrated (2009) : “Es una medida estándar de la industria de calidad de llamada expresada por una escala percibida, de 1 a 5”.
Al disponer de una escala de cinco puntos la valoración es la siguiente:

1. Inaceptable. Distorsión pésima
2. Mala. Distorsión muy molesta
3. Pobre. Distorsión molesta
4. Aceptable. Distorsión perceptible y ligeramente molesta
5. Buena. Nivel de distorsión perceptible pero no molesta
6. Excelente. Sin distorsión

Desventajas en las comunicaciones IP

Como hemos visto antes una posible desventaja sería no conseguir una calidad de voz óptima. IP no fue diseñada para soportar el intercambio de voz, si no el de datos. IP es una tecnología donde resulta importante que no se pierda ningún dato (bit) aunque no es tan importante en como lleguen esos datos. Es decir es extremadamente tolerable al retardo. YMDG (1997) nos dice que al retardo se le conoce como jitter y que la forma de evitar fluctuaciones de retardo es utilizando memorias o buffers que van añadiendo retardo cuando la comunicación es más rápida y quitándolo cuando es más lenta. Se podría entonces hablar en vez de retardo en constancia.

Otra de las desventajas más comunes es la pérdida de paquetes que pueden afectar a la calidad de voz ya que si se pierde el paquete es mejor darlo por perdido que introducirlo en otro momento y de forma esporádica.


Hasta ahora han sido mostrados un aspecto importante de la comunicación de la voz: el cómo se convierte la señal analógica en digital. El objetivo del transporte de la voz es como puede adaptarse Internet para transportar más eficientemente la voz. Pero para entender el transporte debemos hacer un pequeño hincapié en el modelo de referencia OSI (Open System Interconnection) WIKIPEDIA (2009), fue lanzado en 1984 y fue el modelo de red descriptivo creado por ISO.
Como podemos apreciar en la figura 1.4 el modelo OSI comprende siete importantes capas: Aplicación, Presentación, Sesión, Transporte, Red, Enlace, Físico.
Es importante mencionar este modelo para entender el protocolo IP el cual funciona de forma similar aunque con alguna capa de menos como veremos más adelante.

Es importante hacer la siguiente aclaración:

Estas tres capas proporcionan servicios de soporte al usuario

Asegura la transmisión fiable de extremo a extremo

3. RED

Estas tres capas son los niveles de soporte de Red

Como se ha mencionado antes, las capas de TCP/IP son similares a las del modelo OSI.
En este caso las capas de TCP/IP son las siguientes:

Capa 4. Aplicación, asimilable a las capas 5, 6, y 7 del modelo OSI.
Capa 3. Transporte, asimilable a la capa 4 del modelo OSI
Capa 2. Internet, asimilable a la capa 3 del modelo OSI.
Capa 1. Acceso al medio, asimilable a las capas 2 y 1 del modelo OSI.

En nuestro caso vamos a centrarnos en la capa de transporte la capa 3 del protocolo TCP/IP y la capa cuarta del modelo OSI. WIKIPEDIA (2008).

Protocolos de transporte
La capa de transporte se va a encargar de garantizar la transmisión fiable de extremo a extremo. De acuerdo con Barajas (1999) el protocolo IP va a fijar las normas para que los paquetes alcancen su destino, pero lo que no garantiza es cuándo y en que orden lo van a hacer. De eso se va a encargar TCP/UDP.

El protocolo TCP (Transmission Control Protocol), es un protocolo orientado a conexión, y que necesita establecer una conexión previa entre dos máquinas antes de poder transmitir ningún dato. A través de este tipo de conexión los datos llegarán siempre a la aplicación destino de forma ordenada y sin duplicados. Se puede decir que este protocolo es completamente fiable y al final de esto es necesario cerrar la conexión. Por lo tanto podemos decir que este protocolo es:
- Orientado a conexión
- Fiable

El problema de este protocolo es que no es adecuado en cuanto a la transmisión de voz ya que cada byte no se envía inmediatamente después de ser generado por la aplicación, si no que espera a que haya una cierta cantidad de bytes. Para ello son necesarios buffers de memoria.
Los servicios como pueden ser el email o una transferencia de archivo necesitan de este protocolo ya que necesitan garantías de que todos los byte se hayan enviado y no se hayan duplicado.
Pero como en este caso, cuando se necesita transmitir voz o video es mucho más importante transmitir con velocidad que garantizar el hecho de que lleguen absolutamente todos los bytes. Aquí debemos tener en cuenta el protocolo UDP (User Datagram Protocol) que es más rápido y menos fiable que el TCP. El protocolo UDP es no orientado a conexión.
A continuación podemos ver una cabecera UDP y TCP.

Como nos muestra Wikipedia (2009), ICMP (Internet Control Message Protocol), es el subprotocolo de Internet (IP), se usa para enviar mensajes de error indicando que un servicio determinado no está disponible o que un router o un host no puede ser localizado.

Una vez visto todo esto y conociendo todo lo anterior se puede desarrollar otro punto importante en este trabajo, ¿cómo pueden dos equipos establecer una comunicación de voz? O lo que es lo mismo el establecimiento de la comunicación. Pero además nos deberíamos preguntar ¿cómo se da por perdida una llamada?, ¿Cómo se pueden facturar las llamadas?



En se puede encontrar información acerca viejo sistema de señalización VoIP conocido con el nombre de H.323.
¿Por qué fue diseñado H.323?
De acuerdo con Solomon (2008), H.323 fue diseñado para proporcionar un mecanismo de transporte IP en las videoconferencias. El protocolo H.323 fue diseñado en 1996 por UIT-T, y fue desarrollado por que únicamente podían comunicarse los terminales del mismo fabricante. Antes de adentrarnos en el maravilloso mundo del H.323 cabe destacar otro sistema de señalización que para Solomon (2008) va a ser el futuro en cuanto a esta clase de sistemas, es conocido como SIP (Session Initiation Protocol, Protocolo de inicio de sesión), el cual fue desarrollado por IETF casi a la vez que el H.323.
El protocolo H.323 ha tenido diferentes versiones para irse adaptando a los tiempos, la última fue la versión 6. Una de las ventajas de este sistema de señalización es que es completamente compatible, ligero y rápido al ocupar la red el tiempo justo en cada llamada.
Existe software como NetMeeting que usa el H.323.
Pero, ¿Cómo es el funcionamiento de H.323?
Para Huidobro (2009), la arquitectura de este tipo de protocolo está claramente diferenciada, el funcionamiento del H.323 se basa en el funcionamiento de cuatro términos: Terminal, Gateway, MCU, Gatekeeper.
El terminal, es un dispositivo que va a utilizar directamente el usuario para establecer comunicación de voz o video.
El Gateway, es una pasarela que hace que un equipo en una red H.323 se conecte a una red telefónica tradicional por ejemplo. Un lado del Gateway se conecta a la red y otro a la otra. El Gateway se va a encargar también de traducir diferentes formatos de transmisión así como también traducir entre procedimientos de comunicación o traducción entre los codecs de audio y vídeo utilizando ambas redes.
El MCU (Multipoint Control Unit), es un equipo que gestiona conferencias en las que van a participar más de 2 participantes.
Gatekeeper, se podría decir que es una especie de centralita que se va a encargar de agrupar los terminales, Gateway y MCU para poder gestionar las comunicaciones de forma centralizada. Todos los equipos que se conectan a la centralita o Gatekeeper se dice que forman una zona.

Iris (2008) nos ofrece información sobre Gatekeeper, explicado de una forma más extensa. Las funciones principales del gatekeeper son:
- Registrar y autentificar los equipos finales.
- Traducir las direcciones a IP o IPX.
- Gestionar el ancho de banda.
- Puede encargarse de enrutar las llamadas.
Cada equipo final de una zona debería estar registrado en su gatekeeper correspondiente por lo que tiene que conocer los datos de identificación y localización del mismo. El intercambio de información entre el gatekeeper y los equipos finales se lleva a cabo a por el RAS (Registration, Admission and Status).

El proceso de registro de un equipo final en su gatekeeper consta de dos pasos:
1) El equipo final le envía al gatekeeper un mensaje de petición de registro RRQ (Request). En este mensaje debe incluir su dirección IP, puerto, numero teléfono y alias.
2) Si es correcto, el gatekeeper le envía al equipo final un mensaje RCF (confirm) para la confirmación del registro.

Como ejemplo vamos a ver cómo es el funcionamiento de una llamada, desde un terminal A a un terminal B. En este ejemplo no vamos a necesitar ni Gateway ni gatekeeper todo ellos para facilitar todo esto. Para ello necesitamos saber que el protocolo que se encarga de establecer la conexión es el H.225 y el que se encarga de negociar los parámetros es el H.245. El ejemplo de llamada sería muy similar al de la figura 1.7 aunque con algunos cambios:

- La llamada comienza cuando alguien levanta el teléfono, terminal A (desde ahora A) y marca al terminal B (desde ahora B). En este momento tal y como se puede apreciar en el dibujo A envía a B el mensaje H.225.0 Establecimiento (Setup). B responde con el mensaje H.225.0 (procediendo). Todo esto haría sonar el timbre del teléfono de B que responde hacia al A con una alerta, para indicarle que está siendo avisado el destinatario (como en la vida real).
- Cuando el B descuelga el teléfono le envía un mensaje H.225.0 Conectar al terminal A y da comienzo la fase de negociación. Ambos terminales envían un mensaje H.245 preguntando por las capacidades del terminal, ambos se reciben.
- El paso importante es este que es cuando los dos terminales pueden mantener una conversación. Para ello cada terminal envía un OLC (Open LogicalChannel) y puede comenzar la conversación.
- Por último cuando alguien cuelgue el teléfono enviará un CLC (Close Logical Channel) a lo que el otro terminal responderá con un ACK.


De acuerdo con WIKIPEDIA (2009), SIP (Session Initiation Protocol) es un protocolo desarrollado por IETF en 1996 con el objetivo de desarrollar un protocolo que permitiera la comunicación multimedia entre varias personas. Una de las ventajas de este protocolo es que está pensado para ser utilizado de forma permanente en Internet. Por lo tanto SIP aporta lo imprescindible para poder establecer una comunicación.

Un ejemplo de protocolo SIP puede ser el Messenger de Microsoft o el de Apple.

Funcionamiento de SIP.

SIP es un protocolo de señalización que originariamente fue hecho para controlar el establecimiento , modificación y finalizar las comunicaciones multimedia (audio, video, datos). Por ello una vez establecida la comunicación, el intercambio de datos se lleva a cabo usando otros protocolos como RTP/RTCP. En cuanto al nivel de transporte que es el que mas nos interesa, SIP suele utilizar UDP, aunque también funiciona sobre TCP. Desde un punto de vista inicial, SIP fue creado para funcionar sobre IP aunque no impide nada que se pueda usar sobre otro protocolo de red como puede ser X25.

SIP se basa en un modelo cliente-servidor en el que el cliente va a realizar solicitudes (request) al servidor, quien le responde (response) para aceptar, rechazar, etc.

Tenemos terminales y servidores de red. Los terminales, como dijimos en H.323, son los aparatos o equipos que el usuario usa para realizar la comunicación. Y los servidores son equipos que están situados entre los dos usuarios para aportar funcionalidad a SIP.

Vamos a clasificarlo como se ha dicho, en terminales y en servidores.
Los terminales incluyen el UAC (User Agent Client), no es mas que el agente de usuario que es una aplicación que permite que el cliente pueda responder a la llamada, es como la interfaz gráfica del skype o VoIP Buster. Y por otra parte tenemos el UAS (User Agent Server) esto es el agente de usuario servidor que permite que el terminal pueda recibir o responder a una llamada así como también enviar respuestas de aceptación o rechazo que como bien sabemos SIP es capaz de realizar.

En cuanto a los servidores de red existen varios tipos:

-Servidores Proxy: no es más que un equipo que recibe solicitudes del cliente y decide el servidor al que debe reenviárselas.
- Servidor de redireccionamiento: Este servidor no reenvía los mensajes de solicitud si no que responde al cliente con la dirección del servidor al que le tienen que enviar la solicitud. Aquí el cliente contacta con el servidor.
- Servidor de registro: este servidor va a almacenar la dirección SIP del usuario para tenerlo almacenado en todo momento.

El funcionamiento de SIP al realizar una llamada es el que muestra la figura 1.8. Aunque en nuestro caso vamos a analizar un ejemplo en el que no intervengan servidores.

Supongamos que disponemos de un terminal A y otro B que quieren comunicarse entre sí:

1) El terminal A le envía un mensaje de solicitud INVITE al B para establecer conexión.
2) En principio el terminal B haría sonar el timbre para avisar al usuario que alguien le está llamando.
3) Cuando B contesta, le envía al A un OK.
4) Ahora es cuando la información fluye entre ambos utilizando RTP/RTCP como hemos dicho antes.
5) Cuando cuelga alguna de las partes, su terminal envía un mensaje de solicitud BYE al otro.
6) El terminal que recibe BY envía un mensaje OK al otro para confirmar que entiende que la comunicación ha finalizado. Aquí por tanto finaliza la comunicación entre el terminal A y el terminal B.

FIG 1.1 SIP (Session Initiation Protocol)

Por lo tanto en una comunicación de voz sobre todo, los routers son algo esencial en el desarrollo de la comunicación. El buen enrutamiento entre routers resulta fundamental para una buena comunicación IP.


Hasta ahora todo lo que hemos visto ha sido el funcionamiento de las comunicaciones IP, protocolos y funcionamiento en general. VoIP es un tema importante a tratar ya puede ser un gran ahorro para una empresa tanto mediana como grande. Pero, ¿por qué las grandes empresas son reticentes a usar este tipo de servicio gratuito? Para responder a esto se investigará que es lo que dicen los grandes de las comunicaciones, y como ven ellos la tecnología de voz sobre IP.

Davidson (2000) explica como la combinación de voz y datos es el ahorro, teniendo en cuenta el mantenimiento de la red y los costos. Roberto Arcomano (2002), nos explica en su libro “Qué es VoIP” cómo se envían los datos a través de la red (algo que ya hemos visto), pero lo interesante de esto es que señala que los datos en formato digital se puede controlar mejor a medida que se puede comprimir. También comenta que las señales digitales son más tolerantes al ruido que las analógicas.
Pero ¿por qué si se está ahorrando ancho de banda las empresas no lo usan?
Arcomano (2002) comenta que la comunicación de voz y datos deben estar en tiempo real en el terminal de destino, y muchas veces contrasta con la tecnología de internet de la que pueden usarse entre 20 y 30 routers de un protocolo diferente. No siempre están estos routers fielmente sincronizados. De ahí que empresas no usen al 100% la tecnología voip.
Varios autores piensan que las grandes empresas se muestran reticentes por que el nivel de QoS (Quality of Service) en la tecnología VoIP no ha alcanzado su nivel máximo. Además dicen que el desembolso de estas compañías para usar VoIP al comienzo puede ser doloroso teniendo en cuenta que la tecnología IP no está bien vista desde un punto de vista de calidad.

Daniel Thomas en su artículo “Riesgo de Seguridad con VoIP”, nos vuelve a abrir los ojos, advirtiendo a las empresas que deben pensar dos veces antes de implementar la telefonía por internet en su empresa debido a los riesgos de seguridad. Thomas no está de acuerdo con muchos otros expertos que piensan que las ventajas son mayores a los inconvenientes en cuanto a tecnología IP se refiere, considerando que un aspecto clave para los negocios como es la infraestructura para comunicación debería ser lo suficientemente fuerte para prevenir los ataques informáticos.

Mientras que la tecnología de voz sobre Ip sigan conteniendo un mínimo riesgo muchos autores comentan que empresarios cuyos negocios dependen de las comunicaciones no contratarán. Será siempre ya que internet es un medio no seguro. Aunque por otra parte mientras la tecnología siga estancada y dirigida por la mano de los más conservadores del sector no podremos prosperar seguramente ni oiremos hablar por lo menos en España de la tecnología de VoIP para Móviles. En un artículo de la revista VNUNET nos comenta que la tecnología IP en el entorno móvil asusta a las operadoras telefónicas que temen que los programas como Skype o VoIP Buster reduzcan considerablemente las facturas de sus clientes. Esta revista nos comenta que “Las principales compañías han fijado límites al uso de estas aplicaciones para smartphones impidiendo su uso a través de la red 3G o cobrando tarifas excesivas”.

Por todo ello las VON (Voice Over the Net Coalition), asociación de VoIP, han solicitado a la Unión Europea que tome cartas en el asunto y que sus programas puedan ser utilizados desde cualquier terminal.

VNUNET en otro artículo nos dice que “Deutsche Telekom ha prohibido el uso de cualquier sistema de VoIP para hacer llamadas, y Telefónica, la operadora que oferta el iPhone 3G en España, ha indicado que sólo se podrá utilizar la aplicación de Skype cuando se use la conexión WiFi, no mediante la red 3G. Vodafone, por el contrario, ha señalado que ellos no bloquearán el uso del protocolo de voz sobre IP en sus redes 3G.”

De momento los organismos gubernamentales deberán decidir si es justo para la población no disponer de esta tecnología.

Para finalizar gracias a IP Buster tenemos la posibilidad de hacer llamadas a 1cent desde un terminal móvil a uno fijo, el proceso sería el siguiente:
1) Acceder a la página
2) Registarnos y desde entonces para poder llamar desde el teléfono móvil a cualquier otro teléfono marcaríamos un número similar a este 911xxxxxx y escribir el teléfono desde el que queremos llamar y pulsar #.
3) A partir de ahí podemos llamar a 1 cent /min


-Martinez J. (2002). Redes de comunicaciones. Valencia. España, Illustrated, 2st Edition
-Herrera E. (1998). Introdución a las telecomunicaciones modernas, Limusna, 6st Edition.

Referencias Internet:
-Integrated. (2009) Citado en “Análisis de la calidad de voz sobre IP”, online, disponible , accedido 05/04/2009
-YMDG.(1997) Citado en “Descripción técnica detallada sobre VoIP”, online, disponible (, accedido 05/04/2009
-WIKIPEDIA. (2009) Citado en “Modelo OSI”, online, disponible (, accedido 06/04/2009
-WIKIPEDIA. (2008) Citado en “Capas o niveles TCP/IP”, online, disponible (, accedido 06/04/2009
-Solomon. (2008) Citado en Protocolo de VoIP: H.323, online, disponible (, accedido 07/04/2009
-Huidobro. (2009) Citado en “H.323 Multimedia sobre redes IP”, Online, disponible (, accedido 07/04/2009
-Iris. (2008) Citado en “Videoconferencia H.323”, Online, disponible (, accedido 08/ 04/2009
-WIKI (2009). Citado en “SIP”, Online, disponible (, accedido 09/ 04/2009
-David Thomas (2006). Citado en “Security Risk with VoIP”, Online, disponible (, accedido 09/04/2009

