Session Initiation Protocol (SIP)

Mehr als Voice over IP

9. März 2005, 0:16 Uhr | Martin Ruoff/pf Martin Ruoff ist Business Development Manager bei Nortel Germany.

Das Session Initiation Protocol (SIP) setzt sich immer mehr als Protokollstandard für Voice over IP und Multimediaanwendungen durch. Denn SIP ist einfach strukturiert, leicht erweiterbar und offen. Damit überwindet SIP die Einschränkungen bisheriger IP-Sprachimplementierungen. Das Kommunikationsprotokoll schafft die Grundlage für die Integration von Sprach- und Datendiensten sowie neuer Multimediaanwendungen in eine einheitliche, IP-basierende Infrastruktur.

Voice over IP (VoIP) entwickelt sich immer schneller vom Marktrend zum Mainstream. Entsprechend
wächst die Nachfrage nach IP-fähiger Hardware: Die Marktanalysten von IDC gehen davon aus, dass
IP-basierende Telefoniesysteme bis 2007 einen Marktanteil von 40 Prozent erreichen. Alle namhaften
Hersteller wie beispielsweise Nortel haben in den vergangenen Jahren VoIP-Erweiterungen für ihre
traditionellen TK-Anlagen entwickelt und eingeführt. Allerdings erweitern diese bis auf wenige
Ausnahmen bestehende Architekturen des jeweiligen Anbieters und basieren selten auf offenen
Standards. Vor allem die Protokolle im Trunking- und Endgerätebereich sind nach wie vor proprietär,
um die Leistungsmerkmale eines Herstellers auch im IP-Bereich bereitstellen zu können. Die Folge:
Auch hybride Anlagen sind meist herstellerabhängig.

SIP versus H.323

Zwei Lösungsansätze schaffen Abhilfe: H.323, der heute am weitesten verbreitete Standard für
IP-Telefonie, definiert von der International Telecommunication Union (ITU), sowie das Session
Initiation Protocol. SIP ist ein RFC-Standard der Internet Engineering Task Force (IETF), der sich
an Internetprotokollen wie HTTP und SMTP orientiert. H.323 stammt dagegen aus der Telefoniewelt und
verfolgt einen anderen Ansatz.

H.323 bildet einen Umbrella-Standard für IP-Telefonie. Dieser beschreibt Mechanismen und
Standardprotokolle, mit denen sich Sprachleistungsmerkmale zuverlässig über Paketnetze übertragen
lassen. So entstand eine komplette Protokoll-Suite, die alle notwendigen Funktionen wie Codecs,
Rufsteuerung und Konferenzschaltung in einem integrierten Protokoll-Stack detailliert festlegt.
Dadurch war der Ansatz zwar umfassend, aber auch unflexibel.

Anders SIP: Es ist keine Protokoll-Suite, sondern ein einzelnes Application-Layer-Protokoll, das
den Aufbau von Sessions in einem IP-Netz regelt. Es konzentriert sich darauf, den Mechanismus des
Session-Verlaufs (Auf-, Abbau, Änderung) zu spezifizieren. Seine Hauptfunktion ist es, dem
Session-Initiator bei der Identifizierung und Lokalisierung der Session-Teilnehmer zu helfen – und
zwar unabhängig von Standort, Endgerät, Netzzugangstyp, Mediatyp und Teilnehmeranzahl. SIP regelt
also nicht die gesamten Verbindungsmodalitäten, seine wesentliche Aufgabe ist, Teilnehmer zusammen
zu bringen. Den anschließenden Datenaustausch regeln andere Protokolle, die während der
Signalisierung festgelegt werden. Dadurch kann SIP unterschiedliche Dienste unterstützen und
ermöglicht integrierte Multimediaservices.

Offene Rahmenarchitektur und Interoperabilität

SIP wurde im Wesentlichen mit zwei Zielen konzipiert: Es soll eine offene Rahmenarchitektur
schaffen und maximale Interoperabilität sicherstellen. Für eine offene Rahmenarchitektur nutzt SIP
bewährte Protokolle und Techniken, statt neue zu definieren. Die wichtigsten sind: HTTP als Syntax
für Message Header und Cause Codes, SMTP als Adressschema, RTP und RTCP für den Transport von
Echtzeitdaten sowie Feedback-Meldungen zur Quality of Service und RTSP für
Streaming-Media-Steuerung (siehe Glossar).

Um Multimedia-Sessions via Multicasts anzukündigen, greift der SIP-Standard auf das Session
Announcement Protocol (SAP) zurück, die Nutzerauthentifizierung erfolgt über Radius. Die
Sprachqualität und die Zusammenarbeit mit traditionellen Telefonnetzen stellt zudem RSVP (Resource
Reservation Protocol) sicher. Zukünftige Erweiterungen von SIP lassen sich leicht in existierende
Protokolle und Anwendungen wie E-Mail-Lösungen oder Webbrowser einbinden und über SIP-Komponenten
jederzeit bereitstellen. Dadurch garantiert der Standard hohe Interoperabilität.

Dieser offene Ansatz von SIP vereinfacht die Struktur des Protokolls und macht es breit
einsetzbar – nicht nur für IP-Telefonie, sondern auch für verschiedene andere Applikationen wie
Videokonferenzen oder Instant Messaging. SIP lässt sich flexibel an Protokolle, Systeme und
Lösungen unterschiedlicher Hersteller anpassen. Branchenexperten rechnen aufgrund dieser Offenheit
und der Unterstützung durch zahlreiche Anbieter mit einer raschen Verbreitung von SIP im Markt. So
machen laut Canalys-Forecast SIP-basierende Anschlüsse derzeit zwar nur rund fünf Prozent des
Gesamtmarkts von 2,37 Millionen Anschlüssen in der Region Europa, Naher Osten und Afrika aus, die
Marktanalysten rechnen für 2009 aber bereits mit 61 Prozent. In der Übergangszeit existieren H.323
und SIP ebenso wie andere VoIP-Protokolle parallel, und die Hersteller bieten
Interoperabilitätslösungen an.

Elemente einer SIP-Architektur

Eine SIP-Architektur besteht aus verschiedenen Servern und SIP-fähigen Endgeräten. Als reine
Client/-Server-Architektur enthalten die Server Funktionen, die beispielsweise zur Signalisierung
und Lokalisierung der Teilnehmer notwendig sind. Vereinfacht dargestellt bilden die Server damit
die klassische TK-Anlage ab – mit einer wichtigen Ausnahme: Der Datenstrom des Gesprächs läuft
immer direkt als Peer-to-Peer-Verkehr durch das Datennetz.

Typische Elemente einer SIP-Architektur sind:

SIP User Agent (UA): SIP-UAs sind Endgeräte wie SIP-fähige IP-Telefone, PCs,
Conference-Bridges/-Gateways oder Applikationen, die eine SIP-Anfrage initiieren.

SIP Proxy Server: Der Server bildet eine Funktionseinheit in einer Domain, die
Anfragen akzeptiert, Registrierungen nachverfolgt und so genannte Invite-Meldungen an den
Teilnehmer oder den Redirect Server weiterleitet.

SIP Redirect Server: Diese Funktionseinheit übermittelt Invite-Meldungen an
Nutzer und Proxy-Server in externen Domains. Ein Redirect Server akzeptiert SIP-Anfragen, ordnet
die Adresse einer oder mehreren neuen Adressen zu und schickt diese an den Client zurück.

Registrar Server: Diese Datenbank enthält Mapping-Informationen über alle UAs
in einer Domain, einschließlich User-Identität, Name und Anzahl von Übersetzungen sowie Zugang zu
Präsenzinformationen. Der Registrar Server befindet sich in der Regel in der Nähe eines Proxy oder
Redirect Servers und kann Location Services anbieten.

Location Server: Redirect oder Proxy Server können diesen zusätzlichen Service
nutzen, um Informationen darüber zu erhalten, wo sich die UAs befinden.

Ablauf einer SIP-Session

Die SIP-Elemente kommunizieren über die Methoden (Methods) "Request" und "Response" miteinander.
Diese Methods sind im RFC 3261 der IETF spezifiziert. Eine SIP-Anfrage umfasst Anfragezeile,
Kopffelder und Message-Inhalt. Die Kopffelder enthalten Informationen über Rufservices, Adressen
und Protokoll. Der Message-Inhalt kann jedes Format haben, beispielsweise SDP (Session Description
Protocol).

Die wichtigsten im Standard definierten SIP-Anfragemethoden sind:

Invite: Aufforderung zur Teilnahme an einer Session. Die Kopffelder enthalten
die Adressen des rufenden und gerufenen UAs, Rufinhalt, Priorität, Call-Routing-Anforderungen,
Ruferpräferenzen, gewünschte Leistungsmerkmale für die Antwort, Mediainformationen über Codecs,
Ports und Protokolle.

ACK: bestätigt den Session-Aufbau als Antwort auf Invite.

Bye: beendet eine Session.

Options: enthält Informationen über die Fähigkeiten eines angerufenen UAs.

Cancel: annulliert eine laufende Anfrage (Invite).

Register: überbringt die Lokalisierungsinformation einem SIP-Server. Mit "
Register" teilt ein Nutzer einem SIP-Server mit, wie er eine eingehende Adresse einer ausgehenden
Adresse, die zu diesem Nutzer führt, zuordnen soll.

Für die Antwort definiert SIP zwei Arten: "vorläufige" und "endgültige". Vorläufige Antworten
werden durch den Server mitgeteilt, um einen Prozess anzuzeigen. Endgültige terminieren eine
Transaktion. Antworten auf SIP-Requests erfolgen – ähnlich wie in HTTP – über Zahlencodes. Diese
geben Auskunft über den Status, Erfolg oder Misserfolg einer Anfrage.

Konkret verläuft ein Rufauf- und -abbau folgendermaßen: Ein typischer Invite Request umfasst
eine Beschreibung der gewünschten Session unter Verwendung von SDP. Er zeigt etwa an, ob die
angerufene Partei zu einer Konferenz oder einem Einzelgespräch eingeladen werden soll. Über den
Type of Media lässt sich das unterstützte Medium signalisieren: etwa Text-Chat oder Telefonie ohne
beziehungsweise mit Video. Zudem zeigt der Invite Request das gewünschte Transportprotokoll für den
Media-Austausch zwischen den Teilnehmern an – im Regelfall RTP. Der Angerufene bestätigt die
empfangene Anfrage mit "ACK", beim Verlassen der Session sendet er "Bye".

Kennt der Anrufer die Adresse der anderen Partei nicht, sendet er einen Invite Request zum Proxy
Server seiner Domain. Dieser findet die Zieladresse, indem er den Location Server kontaktiert.
Teilt ihm dieser mehrere mögliche Adressen mit, sendet der Proxy Server "Invites" an alle Adressen
gleichzeitig (Forking Proxy). SIP Forking Proxies sind in der Lage, Anfragen parallel oder
sequenziell in unterschiedliche Richtungen weiterzuleiten. So können sie beispielsweise versuchen,
einen Nutzer im Büro, auf dem Handy oder auf einer alternativen Nummer zu erreichen, bis sie eine
positive Bestätigung erhalten. Idealerweise kann der Nutzer diese Funktion selbst definieren und
einrichten. Dabei lassen sich auch zeitliche Abhängigkeiten berücksichtigen – beispielsweise, um
einen SIP-Call abends auf das Handy umzuleiten. Diese Regeln lassen sich von jedem einzelnen
Benutzer über eine Webseite anpassen.

Erreichbar durch Präsenzfunktion

Zentrales Element in einem SIP-Kommunikationsmodell ist das Präsenzkonzept. Es basiert auf
Echtzeitinformationen über unterschiedliche Aktivitäten und Zustände. Die Daten geben etwa an, ob
ein Endgerät (Telefon, PC, PDA) aktiv ist, ob gerade eine Session (synchron oder asynchron)
durchgeführt wird oder an welchem Standort sich der Teilnehmer befindet (Büro, Unternehmen,
unterwegs). Sie stammen vom Registrar Server und lassen sich jedem SIP-Endgerät und jeder
SIP-fähigen Applikation selektiv verfügbar machen. So können Nutzer sehen, ob ein Teilnehmer
verfügbar ("connected"), in einem Meeting oder außer Haus ist – unnötige Kommunikationsversuche
entfallen dadurch.

Auch wenn in Zukunft alle Netze und Netzebenen auf dem Internetprotokoll basieren, bestehen in
einer Übergangsphase klassische leitungsvermittelte und paketbasierende Netze parallel. Der
reibungslose Übergang in bestehende Netze ist daher sehr wichtig. Um SIP zusammen mit
traditioneller Telefonie einsetzen zu können, sind in der Regel TK-Anlagen-typische Merkmale
erforderlich. Einige Merkmale hat die IETF definiert, wie Halten von Anrufen, Wartemusik,
Anruftransfer mit Rückfrage oder feste und variable Anrufweiterleitung. Sie werden über das
SIP-Protokoll mit Anfrage- und Antwortmethoden signalisiert.

Beim Übergang in bestehende Sprach- und Datennetze übernehmen Gateways die Signalisierung und
den Mediafluss. So sind beim Übergang auf ein öffentliches ISDN-Telefonnetz die SIP-Signalisierung
auf einen D-Kanal und der RTP-Media-Stream auf entsprechende B-Kanäle beziehungsweise PCM-Trunks
(PCM: Pulse Code Modulation) abzubilden.

Bei der Zusammenarbeit von SIP-Clients (User Agents) mit traditionellen TK-Anlagen müssen Anrufe
unabhängig vom Medium auf allen gewünschten und konfigurierten Endgeräten signalisiert werden. So
sollte beispielsweise ein Anruf sowohl auf dem SIP-Client als auch auf dem Systemtelefon und dem
DECT-Endgerät klingeln. Der Tischapparat ließe sich dann wegen seiner besseren Sprachqualität für
ein Telefonat verwenden, während der PC den Multimedia-Part übernimmt. Beide Endgeräte sind
synchronisiert, sodass sich der Anruf auf dem PC und mit dem Telefon beenden lässt.

SIP-basierende konvergente Kommunikationsumgebung

SIP ermöglicht neue multimediale Applikationen, die die Grenze zwischen Sprach- und
Datenkommunikation aufheben – wie auch die zwischen Festnetz und Mobilfunk. So beschreiben
Funktionen wie Presence-Services, Collaboration oder Call Routing eine multimediale
Kommunikationsumgebung, die sich beispielsweise auch in den nächsten Entwicklungsstufen von UMTS
weiterentwickeln wird. Die Basis hierbei bildet das IP-Multimedia-Subsystem (IMS), das vom 3GPP
(3rd Generation Partnership Project) im Rahmen von UMTS spezifiziert und standardisiert wird. Damit
soll es künftig möglich sein, SIP als Standardsignalisierungsprotokoll auf allen Ebenen der IT-Welt
zu nutzen.

Applikationen lassen sich dann über Webservices wie XML, CCXML oder VXML integrieren. So hat
etwa Nortel Anpassungen für die Integration von "Siebel CRM" in die SIP-Architektur vorgenommen.
Hersteller wie Microsoft unterstützen SIP für eigene Applikationen oder bieten wie Sun Microsystems
und Nortel entsprechende Programmierschnittstellen (APIs -Application Programming Interfaces) an.
So sind neue, vielfältige Applikationen möglich (siehe Kasten).

SIP treibt durch seine einfache, offene Architektur die Konvergenz der Netze voran und
erleichtert es Softwareherstellern, ihre Produkte um IP-Telefonie-Applikationen zu erweitern. Damit
wird der bisher ausschließlich von TK-Herstellern, Netzbetreibern und Service-Providern dominierte
Markt für weitere Player geöffnet.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+