Weil Bilder mehr als tausend Worte sagen
Immer mehr Video-Meetings werden digital mit Hilfe des Internet-Protokolls übertragen. Diese Technologie ist meist günstiger und flexibler. So lassen sich Investitionen schneller wieder einfahren, und dem vorhandenen IP-Netzwerk wird ein zusätzlicher Mehrwert abgewonnen.

Überall da, wo Telefonie über das Datennetz abgewickelt wird, lassen sich Videokonferenzen nach dem gleichen Schema realisieren.
Mittlerweile hält der Videokonferenzmarkt jede Menge Optionen bereit, wobei sich die Auswahl sowohl an der vorhandenen beziehungsweise angestrebten Netzwerkausstattung orientiert, als auch am Einsatzzweck. Desktop-Systeme sind eine preiswerte Variante, bei der eine Videokamera – meist über den USB-Port – sowie ein Mikrofon oder Headset direkt an den PC angeschlossen werden. Zu unterscheiden sind hierbei hardware- von softwarebasierten Lösungen; im einen Fall erledigt eine dezidierte Steckkarte die Kodierung und Dekodierung, im anderen Fall ist die CPU des PC damit betraut.
Beliebt sind Desktop-Systeme nicht nur wegen ihrer relativ geringen Kosten, sondern auch dank der Möglichkeit, während einer Videokonferenz auf Computerapplikationen zugreifen zu können. Settop-Boxen liefern eine kompakte Integrationslösung, bei der meist nur noch ein Monitor angeschlossen werden muss. Als Luxusvariante sind komplette Raumsysteme anzusehen. Sie sind meist modular aufgebaut und sollten sich möglichst flexibel konfigurieren lassen. Neben obligaten Raummikrofonen können in Business-Meetings zum Beispiel auch extra Dokumenten-Kameras äußerst hilfreich sein.
H.323 setzt den Standard
Zunächst ein Blick auf die Standardfamilie H.323, die den Grundstein sowohl für den Sprachtransport als auch für Bildübertragungen im Datennetz legte. H.323 ist Teil der Standardreihe H.32x, die Videconferencing über unterschiedlichste Netzwerke und Medien definiert. In der Nachbarschaft von H.323 beschreibt H.320 beispielsweise Videokonferenzen über ISDN, H.321 über ATM und H.324 über analoge Telefonleitungen.
H.323 wird von der ITU moderiert und galt bisher als so genannter »Umbrella«-Standard, an den sich jede Menge weiterer Standards für die Multimediakommunikation gruppieren. So regelt H.245 den Nachrichtenaustausch für das Öffnen und Schließen logischer Kanäle sowie für die Kontrolle der Übertragungskapazitäten. Die Rufsignalisierung, den Medientyp – Audio oder Video – sowie die Umwandlung des Datenstroms in Pakete und deren Synchronisierung beschreibt H.225, zusammen auch RAS, für Registration, Admission, Status, genannt.
H.323 ist von der Transportschicht unabhängig. Das Kommunikationsmodell von H.323 basiert auf vier Säulen: Terminal, Multipoint-Controller-Unit (MCU), Gateway und Gatekeeper. Videoübertragungen über IP-basierte Netze sind entweder als Punkt-zu-Punkt- oder als Multipunkt-Verbindung möglich. Bei Konferenzschaltungen zwischen drei und mehr Teilnehmern kommt nun die MCU ins Spiel: Sie besteht aus einem Multipoint-Controller (MC) plus optionalem Multipoint-Processor (MP), wobei der MC für Signalisierung und Ressourcen-Management sorgt. Manche MPs können Audio- und Video-Streams in Echtzeit umwandeln – vorteilhaft dann, wenn die Teilnehmer unterschiedliche Video-Codecs nutzen wollen. Nachteilig daran ist, dass dafür meist zu viele Ressourcen gebunden werden.
Die Brücke zum klassischen Telefonnetz und auch zu protokollfremden Terminals schlagen die H.323-Gateways. Sie übersetzen die Alias-Namen der Terminals in IP-Adressen, wandeln Medienformate um, steuern den Informationsaustausch und passen die Audio- und Video-Codecs an. Außerdem übernehmen sie Einleitung und Abschluss der Anrufe auf beiden Seiten der Verbindung.
Als vierte H.323-Säule kümmert sich der Gatekeeper um Adressierung, Autorisierung und Authentisierung von Terminals sowie um die Bandbreitenverwaltung. Theoretisch funktionieren direkte Verbindungen unter H.323 auch ohne Gatekeeper, doch können Videokonferenzen meist nicht auf dessen Kapazitätskontrolle verzichten. Beispielsweise weist ein Gatekeeper eingehende Anrufe ab, sobald die verfügbare Bandbreite knapp wird.
Video als netzwerknahe Applikation
In der Vergangenheit boten nur ISDN beziehungsweise TDM-Netze einen gangbaren Übertragungsweg für Videokonferenzen. Datennetze waren seinerzeit keine realistische Option. Das änderte sich erst mit der massenhaften Einführung geswitchter 10/100-MBit/s-Netze und entsprechend leistungsstärkerer Router, die QoS auf Layer-2 und -3 des OSI-Referenzmodells differenziert bereitstellen konnten. Video-over-IP ist in noch stärkerem Maße als IP-Telefonie auf garantierte Dienstgüte angewiesen. Heute stehen interaktiver Videokommunikation über IP-basierte Netze keine technischen Restriktionen mehr im Wege. Im Gegenteil, überall da, wo bereits Telefonie über das Datennetz abgewickelt wird, lassen sich Videokonferenzen nach dem gleichen Grundschema realisieren. Bandbreiten sind in der Regel nicht mehr das Problem. Vielmehr hängt alles von der Auslegung des Netzwerks ab. Die Frage ist, ob dieses in der Lage ist, Video-over-IP als zusätzliche, netzwerknahe Applikation kostengünstig zu integrieren. Wenn ja, dürften sich die Investitionen für Videokonferenzsysteme schnell refinanzieren. Denn der Administrationsaufwand erhöht sich kaum. Die neue Applikation verursacht also auch nur einen entsprechend geringen Anstieg der laufenden Netzwerkkosten. Stattdessen gewinnt sie der Infrastruktur einen zusätzlichen Mehrwert ab. Zu einer realistischen Abschätzung des Return-on-Investment gehört zudem der Produktivitätsgewinn, zum Beispiel wenn Mitarbeiter nicht mehr in den Konferenzraum müssen, sondern am eigenen Desktop via Video an Meetings teilnehmen. Eine Regel besagt: Der Kostenrückgang je Arbeitsplatz verhält sich exponentiell zur Anzahl der H.323-Clients.
Der Standard H.323 kann nicht verleugnen, dass er einer Zeit entstammt, die noch vom Fortbestehen der Koexistenz zwischen leitungs- und paketvermittelten Netzwelten ausging. Ungeachtet seiner Verdienste um die Konvergenz auf Basis des Internet-Protokolls sieht sich das Protokoll heute mit einer starken Konkurrenz konfrontiert: Das um drei Jahre jüngere Session-Initiation-Protocol, kurz SIP, wird vielfach als Standard der Zukunft gesehen. Urheber ist in diesem Fall nicht die ITU, sondern die IETF und unverkennbar trägt SIP die Handschrift einer Internet-Behörde. SIP ist rein textbasiert und ähnelt äußerlich HTML. Im Unterschied zum monolithischen H.323 ist SIP modular strukturiert und daher wesentlich flexibler zu erweitern.
Softswitch ideal für Video-Conferencing
Als ideale Plattform für Videoübertragungen durch Service-Provider gelten zu Recht MPLS-Netze. Denn sie folgen dem so genannten Softswitch-Ansatz, einer Basistechnologie für Next-Generation-Networks (NGNs): Ein Softswitch trennt Dienste und Übertragungstechnik voneinander. Das zentralisierte Strukturmodell konventioneller TDM-Vermittlungsstellen wird hierbei in seine wesentlichen Bestandteile aufgebrochen: Call-Handler, Schnittstellenkarten und Koppelfeld. Dem entsprechen im Multiprotokollnetz Media-Gateway-Controller, Media-Gateways sowie Signalling-Gateways. Zusammen bilden sie ein verteiltes Vermittlungssystem. Der Begriff Softswitch bezieht sich auf die Software, welche die verteilte Steuerung der einzelnen Komponenten ermöglicht und die Verbindungssteuerung übernimmt. Zu den wichtigsten unterstützten Protokollen zählen neben SIP und H.323 auch Megato/H.248 (Media-Gateway-Controller) sowie BICC (Bearer-Independent-Call-Control, ITU-T Q.1901).
In einem MPLS-Netz werden Datenpakete nicht nur über ihre IP-Adresse, sondern anhand so genannter Labels transportiert. An solche Labels – etwa an diejenigen für Sprachpakete – lassen sich zusätzliche Transportprioritäten heften. Der Effekt: Video- und Telefonie-Anwendungen können immer mit festen Bandbreiten rechnen, weil Multimedia-Pakete immer Vorfahrt haben – egal wie viele Anwendungen und Datenströme in einem gegebenen Augenblick gerade um die verfügbare Netzkapazität konkurrieren. Übrigens lassen sich die MPLS-Labels auch deutlich schneller auswerten als IP-Adressen, was wiederum der Netzperformance zugute kommt.
Sicher …
Der Videoübertragung per Internet-Protokoll drohen grundsätzlich die gleichen Gefahren wie dem Telefonverkehr via IP. Führt die Netztrasse über das offene Internet, bieten VPNs durch verschlüsselte Tunnelverbindungen Schutz vor einem Lauschangriff. Den Missbrauch des zentralen Call-Processing verhindert eine zweifelsfreie Identifizierung der Endgeräte, beispielsweise durch ein digitales X.509-Zertifikat. Weiterhin kann der Voice-Stream mit dem leistungsfähigen Secure-Realtime-Transport-Protocol (SRTP), einer Erweiterung des Real-Time-Transport-Protocol (RTP) abgesichert werden. SRTP stellt ein Framework für Verschlüsselung und Authentisierung plus Schlüsselmanagement bereit, das sich sowohl für Uni- als auch für Multicast-Applikationen eignet. Hohe Paket-Durchsatzraten und die Offenheit für unterschiedlichste Verschlüsselungsverfahren machen SRTP für viele Marktteilnehmer interessant.
… und gestochen scharf
Der Wunsch nach wirtschaftlichem Umgang mit Ressourcen – hier der Bandbreite – muss keine Bildqualitätseinbuße mehr bedeuten. Neben H.261 und dem älteren H.263 erfreut sich H.264 bei Herstellern und Nutzern immer größerer Beliebtheit. Der Kompressionsstandard ähnelt stark MPEG, er wurde von ITU Study Group 16 (Video Coding Expert Group) zunächst unter dem Namen H.26L veröffentlicht. Im Jahre 2001 schloss sich die ITU-Gruppe mit MPEG zusammen. Subjektive Tests hatten ergeben, dass H.26L im Vergleich zu MPEG-4 etwa doppelt so effizient komprimierte. Das Joint Video Team (JVT) hat den Codec gemeinsam zu Ende entwickelt. Dabei wurden speziell Erweiterungen für TV- und HD-Anwendungen mit hoher bis extrem hoher Qualität ergänzt. Seit 2003 ist der Codec nun endgültig verabschiedet. Sein offizieller Name lautet seither H.264. Bei ISO MPEG läuft er unter der Bezeichnung MPEG-4/Part 10 beziehungsweise MPEG-4/AVC (Advanced-Video-Coding).
An Stelle früherer, vergleichsweise aufwändiger Transformationen auf acht mal acht Pixel-Blöcken arbeitet H.264 mit einer davon abgeleiteten Methode auf vier mal vier großen Blöcken. Der Vorteil: Die Berechnung kommt lediglich mit Additionen, Subtraktionen und binären Verschiebeoperationen aus, was einer Hardware-Implementierung sehr entgegenkommt. Außerdem minimiert die geringere Blockgröße die so genannten Kompressionsartefakte, also Signalstörungen, die durch digitale, verlustbehaftete Datenreduktion verursacht werden. Zudem unterteilt H.264 Makroblöcke von der Größe 16 mal 16 Pixel in Vierer-Unterblöcke und speichert für jeden davon einen eigenen Bewegungsvektor, wodurch räumlich scharf abgegrenzte oder sehr komplexe Bewegungen besser kompensiert werden können.
Sparsam zeigt sich die so genannte Intra-Prediction: Pixelwerte eines Blocks werden aus den umliegenden, bereits dekodierten Nachbarn abgeschätzt, nur die Differenz zwischen Schätzwert und tatsächlichem Bildinhalt wird kodiert. Während sich bisherige MPEG-Codecs ausschließlich auf optionales, externes Postprocessing verlassen, gehört ein Deblocking-Filter als fester Bestandteil zu H.264, wie übrigens auch schon zu H.263. Damit lässt sich die subjektiv wahrgenommene Bildqualität signifikant steigern – was erfahrungsgemäß eine nicht zu unterschätzende Rolle für die Akzeptanz von Videokonferenzen im Unternehmen spielt.
Ernst Engelmann, Business Development Manager IP-Kommunikation, Cisco Systems