Zum Inhalt springen
IP-Videokonferenztechnik in HD-Qualität

Den Kinderschuhen entwachsen

Der bisweilen schlechte Ruf der Videokonferenztechnik beruht meist auf der vermeintlich schlechten Qualität der Bilder. Doch gerade in diesem Punkt haben die Hersteller in den letzten Jahren signifikante Verbesserungen hervorgebracht - vor allem durch optimierte Verfahren zur Datenkomprimierung. Diese ermöglichen heute sogar den Austausch qualitativ hochwertiger Videos im High-Definition-(HD-)Bildformat - und dies bei limitierter Bandbreite.

Autor:Andreas Wienold/pf Andreas Wienold ist Director of Sales EMEA bei Lifesize Communications. • 1.3.2009 • ca. 7:05 Min

Die ersten auf analogen Verbindungen aufbauenden Videokonferenzsysteme kamen in Deutschland Mitte der 1980er-Jahre auf den Markt. Doch auch das 1989 eingeführte ISDN - immerhin mit 64-kBit/s-Kanälen ausgestattet - war für Videokonferenzen noch nicht optimal, da mehrere teure ISDN-Kanäle gebündelt werden mussten, um genug Bandbreite für eine qualitativ hochwertige Übertragung zu erhalten. Erst die Einführung von Breitbandtechnik brachte einen Aufschwung für Videokonferenzen.

Der Ausbau der breitbandigen Datenleitungen kommt mittlerweile voran, doch insbesondere in ländlichen Gebieten stehen noch zu wenige Breitbandanschlüsse zur Verfügung. Immerhin sind viele kleine und mittlere Unternehmen nicht in stadtnahen Gebieten angesiedelt, und auch sie sind in der heutigen Wirtschaftswelt globale Teilnehmer. Somit ist es nötig, sich dem Thema Datenvolumen bei Videoübertragungen von zwei Seiten zu nähern. Neben der Erhöhung der Übertragungskapazitäten muss die Datenmenge verkleinert werden. Da bei höheren und damit qualitativ hochwertigeren Bildauflösungen wie High-Definition (HD) zudem notwendigerweise mehr Daten anfallen, lautet die Devise der Hersteller "komprimieren".

Der Industrieverband EICTA (European Information, Communications and Consumer Electronics Technology Industry Association) vergibt das Label "HD Ready 1080p" - früher bekannt als "Full HD" - nur, wenn Geräte über eine digitale Schnittstelle eine Auflösung von mindestens 1.080p erreichen. Dies entspricht einer nativen Auflösung von 1.080 Zeilen und 1.920 Spalten im Format 16:9. Zudem müssen derartig klassifizierte Bildschirme Vollbilder mit einer Auflösung von 1.920 x 1.080 Pixeln liefern. Diese Bilder sind außerdem pixelgenau darzustellen. Dies bedeutet, dass die früher üblichen Geometrieabweichungen an den Randbereichen von Röhrenbildschirmen vermieden werden müssen - der so genannte Overscan war bei röhrenbasierenden Monitoren notwendig, um einen klaren Abschluss des dargestellten Bildes zu gewährleisten. Als Bildfrequenzen fordert die EICTA 50, 60 oder 24 Hz für den Erhalt des HD-Prädikats. Das Label "HD Ready" wird für eine Bilddarstellung von Vollbildern mit 1.280 x 720 Pixeln (720p) vergeben. Zum Vergleich: Ein herkömmliches PAL-Fernsehbild liefert lediglich 720 x 576 Pixel.

Hochauflösende Bilder mit HD-Label

Dabei ist zu beachten, dass zumindest im Entertainment-Bereich mit den HD-Logos bisweilen
Schindluder getrieben wird. Die Auszeichnung ist generell weder rechtsverbindlich, noch
kontrolliert eine unabhängige Institution die Einhaltung der Spezifikationen. Als überprüfende
Instanz sind somit lediglich die Fachpresse und die Anwender im Einsatz. Ein genauerer Blick auf
die entsprechenden technischen Daten der angebotenen Systeme lohnt sich also in jedem Fall – auch
wenn es um Angebote für Videokonferenzlösungen geht.

Um die angesprochenen hochwertigen Bilder liefern zu können, bedarf es einiger technischer
Anstrengung. Denn nicht die "Produktion" der Bilder ist die Herausforderung, sondern deren
Austausch nach der erfolgten Digitalisierung. Daher scheiterten hochauflösende Bilder vor allem an
den zur Verfügung stehenden Bandbreiten der Telekommunikationsdienstleister. Benötigten frühe
HD-Systeme noch Bandbreiten von 5 MBit/s, so reicht heute bereits eine Bandbreite von 768 kBit/s,
um Videokonferenzen in High-Definition-Qualität bei 720p mit 30 Bildern pro Sekunde zu übertragen.
Letzteres entspricht in der Wahrnehmung bereits DVD-Qualität. Grundlage für diese Erfolge im
Bereich der Datenkomprimierung waren die Verbreitung von IP-Netzen sowie die Entwicklung immer
leistungsfähigerer Codecs, deren Algorithmen eine hohe Datenkompression ohne den sichtbaren Verlust
von Bildinformation erzeugen können und gleichzeitig keine so genannten Artefakte in der
Bilddarstellung verursachen.

Verbesserte Codecs sorgen für mehr Qualität

Der erste Prozess, das Sampling, wandelt lediglich analoge in digitale Signale um. Dabei werden
die Bildinformationen in Form eines Rasters einzelnen Bildpunkten zugewiesen. Die so gewonnenen
Bilddateien sind sehr voluminös: Ein vollständiges Abtastverfahren ohne jegliche Komprimierung
würde für die Übermittlung der Bilder eine Übertragungsgeschwindigkeit von zirka 165 MBit/s
benötigen. Daher müssen die gewonnenen Daten verkleinert werden. Die angewandten Verfahren zur
Komprimierung funktionieren dabei in der Regel verlustbehaftet: Ein gewisses Maß an
Bildinformationen wird durch den so genannten Codec – beispielsweise den bekannten MPEG-4 (Motion
Picture Expert Group) – schlicht eliminiert, sodass de facto Bildinformationen verloren gehen und
die Datenmenge abnimmt. Es bleiben jedoch noch ausreichend Informationen übrig, damit das
menschliche Auge – im Zusammenspiel mit dem Gehirn – ein vollständiges Bild zusammensetzen
kann.

Die Abtastung der Bilder erfolgt bei der Umwandlung von analog in digital segmentiert. Der erste
Frame – auch Indexbild genannt – wird komplett übermittelt, bei den folgenden Bildern kommen
lediglich die Änderungen gegenüber dem Indexbild zur Übertragung. Entscheidet sich der Anwender für
eine hohe Komprimierungsrate, wächst auch die Verlustrate. Die angesprochenen Artefakte können
entstehen, wenn nicht genug Bildinformationen übermittelt werden. Dann kommen einzelne Segmente
außerhalb der Reihenfolge beim Empfänger an – Pixel tauchen an der falschen Stelle auf, das Bild
ist verzerrt etc. Bei den Bezeichnungen der MPEG-Codecs sind die Untervarianten zu unterscheiden.
DivX ist ein häufig genutztes Format im Consumer-Bereich, beim Video-Conferencing kommt jedoch
meist MPEG-4/AVC (AVC: Advanced Video Coding) – auch bekannt unter der ITU-Bezeichnung H.264 – zum
Einsatz. Dies ist eine netzwerkfähige Weiterentwicklung von MPEG-4. Im Vergleich zu H.262 (MPEG-2)
erlaubt das patentierte Verfahren eine Komprimierung, die für HD-Formate geeignet ist. Im Gegensatz
zu früheren beziehungsweise anderen Verfahren zur Datenkomprimierung unterscheidet H.264 kleinere
Pixelblöcke, deren Größe nur 4 x 4 Pixel beträgt. Als Grundoperationen genügen Addition,
Subtraktion und binäre Verschiebeoperationen, da sich durch die Aufteilung in kleinere Pixelblöcke
der Transformationsaufwand verringert. Die bei H.264 bis zu 50 Prozent betragende Bitdatenreduktion
wird allerdings mit einem etwa dreimal so hohen Rechenaufwand erkauft. Der Erfolg des Codecs zeigt
sich dennoch in der großen Verbreitung: Neben Videokonferenztechnik nutzt etwa auch Blu-ray dieses
Format.

H.264 verwendet etliche technische Raffinessen: So erfolgt etwa die Berechnung der Zwischenpixel
zur Bewegungskompensation mithilfe eines Filters mit endlicher Impulsantwort, auch bekannt als
Transversal- oder FIR-Filter (Finite Impulse Response). Dieser Filter vermeidet eine Instabilität
des Signals oder selbstständige Schwingungen und erhöht so die Bildschärfe. Dank Techniken wie "
Weighted Prediction", "Intra Prediction" und "Long Term Prediction" lassen sich über vorangegangene
oder umliegende und bereits dekodierte Pixelwerte Bildvorhersagen errechnen, sodass nur noch
Differenzen zu dekodieren sind. Dabei existieren verschiedene Profile, wobei für
Echtzeitvideokommunikation in der Regel der "Baseline"-Standard zum Einsatz kommt.

Neben der Optimierung der Komprimierungsalgorithmen für die Codecs ist das Management der zur
Verfügung stehenden Bandbreite eine weitere Möglichkeit, um die Qualität von Videoübertragungen zu
verbessern. So lassen sich in IP-Netzen beispielsweise Bild- und Sprachinformationen mit
Quality-of-Service-(QoS-)Techniken priorisieren. Letztlich lässt sich jedoch auf diese Weise
mangelnde Bandbreite nur kaschieren. Daher muss bei den Herstellern von Videokonferenzlösungen das
Augenmerk darauf liegen, immer neue und bessere Wege zu finden, um die zu übertragende Datenmenge
zu verkleinern.

SIP löst zunehmend H.323 ab

Den Aufbau von Videoverbindungen, die für den Datenaustausch nötigen Vereinbarungen sowie den
Transport der Daten regeln spezielle Protokolle, die auch aus der IP-Telefonie bekannt sind. Der
lange Zeit vorherrschende Standard war H.323, der auf dem ISDN-Protokoll Q.931 basiert und damit
seine Wurzeln nicht in der IP-Welt hat. Das binär aufgebaute und immer noch verbreitete Protokoll
gewährleistet jedoch eine hohe herstellerunabhängige Interoperabilität und ist durch T.120 für alle
multimedialen Anwendungen geeignet. In H.323 sind sämtliche Parameter einer Übertragung festgelegt
wie zum Beispiel die verwendbaren Codecs. Das Kernsystem besteht aus drei Standards: H.225, H.245
und H.235, die jeweils unterschiedliche Aufgaben wahrnehmen.

H.225 formt den von ihm ausgegebenen Datenstrom gemäß der Netzwerkschicht um und ist darüber
hinaus für das Verpacken sowie Sortieren der Datenpakete zuständig. H.245 verwaltet Nachrichten und
Verfahrensweisen für das Öffnen und Schließen der Kanäle, die Audio, Video und Daten übertragen.
H.235 wiederum zeichnet für die Sicherung der Authentifizierung verantwortlich. So genannte
Multipoint Control Units (MCUs) erlauben die Kommunikation von drei oder mehr H.323-Stellen
untereinander. Gatekeeper übernehmen die Gateway-Funktionen zwischen Telefon- und IP-Netz, indem
sie sich um die Signalisierungen, Datenübertragungen und Transkodierungen kümmern. H.323 deckt also
alle benötigten Dienste ab. Seit Version 3 kann H.323 zudem auch auf nicht eingebaute Codecs
zugreifen.

Dennoch verdrängt bei Herstellern von Videokonferenzlösungen wie Lifesize inzwischen mehr und
mehr das funktional vergleichbare SIP (Session Initiation Protocol) sowohl H.323 als auch H.320,
das für traditionelle ISDN-Videokonferenzen entwickelt worden war. SIP kann Sitzungen für zwei oder
– mittels des Einsatzes einer MCU – mehrere Teilnehmer aufbauen und steuern. Ursprünglich wurde der
Standard jedoch für die Übertragung von Gerät zu Gerät entwickelt.

Für die zunehmende Verbreitung von SIP existieren einige triftige Gründe. Einer davon ist dessen
höhere Sicherheit, da es sowohl das SSL- (Secure Socket Layer) als auch das TLS-Protokoll
(Transport Layer Security) nutzen kann. Zudem ist SIP in der Lage, auf einfachem Wege bereits
aufgebaute Sitzungen zu modifizieren. Schließlich ist die weite Verbreitung des einfach aufgebauten
Protokolls als offener Standard ein Vorteil gegenüber H.323. Praktische Anwendungen wie
beispielsweise das Weiterleiten oder Halten von Anrufen oder die Identitätsübermittlung ermöglichen
die in SIP integrierten CLASS-Eigenschaften (Custom Local Area Signaling Services). Die größte
Herausforderung beim Einsatz von SIP in Gateways war lange Zeit die Tatsache, dass auf Grund des
meist verwendeten Transportprotokolls RTP (Real-time Transport Protocol) Firewalls ein Hindernis
darstellten: Die Vergabe der für RTP notwendigen UDP-Ports (User Datagram Protocol) erfolgt
dynamisch; die meisten Firewalls sind jedoch nicht in der Lage, dynamisch vergebene Ports
zuzuordnen. Abhilfe können hier spezielle Protokolle wie zum Beispiel STUN (Simple Traversal of UDP
over NATs) schaffen. Dabei wird eine Anfrage an einen STUN-Server im Internet gestellt, und diese
Information lässt sich dann im Protokoll-Header einbauen. Weitere Lösungsmöglichkeiten sind die
Verwendung von Application Layer Gateways (ALGs), die in diesem Zusammenhang in die Firewall
eingebaute SIP-Proxies darstellen und die Anrufe entsprechend weiterschalten, sowie die Trennung
von Firewall und ALG über ein Middlebox-Communications-("Midcom"-) Protokoll.

Neben den unmittelbaren Verbesserungen der Videokonferenztechnik konnten die Hersteller auch
signifikante Fortschritte bei der Interoperabilität zum Beispiel mit Office-Anwendungen erreichen.
Lifesize bietet zum Beispiel eine Terminvereinbarung für Gespräche über Microsoft Outlook. Über
Standards wie H.239 lassen sich Anwendungen (Application Sharing) oder Whiteboards gemeinsam
nutzen. Die ehemals proprietären Systeme können inzwischen zudem in der Regel problemlos
untereinander kommunizieren.