Eine Einführung in Companding: Komprimieren von Sprache für die Übertragung über Telefonsysteme

Adobe Illustrator CS6 & CC - Text Basics - Text Tool Tutorial (Juli 2019).

$config[ads_text] not found
Anonim

Eine Einführung in Companding: Komprimieren von Sprache für die Übertragung über Telefonsysteme


Dieser Artikel stellt das Thema der Kompandierung vor - die Digitalisierung, Übertragung und Umwandlung von menschlicher Sprache über Telefonsysteme.

Ein kurzer Hintergrund

Telefonsysteme sind seit ihrer Erfindung stark nachgefragt worden und haben sich von öffentlichen Telefonnetzen (PSTNs) zu modernen drahtlosen digitalen mobilen Systemen entwickelt. PCM-Systeme (Analog-Digital-Wandlung-basierte Pulscodemodulation) werden in den letzten sechs Jahrzehnten verwendet. Es ist anzumerken, dass unabhängig von der Art der verwendeten Verschlüsselung alle Telefonsysteme unter Ausnutzung der grundlegenden Fakten funktionieren, die den menschlichen Sprach- und Hörmechanismen zugrunde liegen.

Menschlicher Sprach- und Gehörmechanismus

Sprache ist ein natürlicher Kommunikationsmechanismus unter den Menschen. Wörter bestehen aus verschiedenen Phonemen, einzelnen Lauten mit unterschiedlicher Amplitude, wobei leisere Phoneme häufiger auftreten als lautere Phoneme. Im Allgemeinen liegt das von Menschen erzeugte Sprachsignal in einem Frequenzbereich von 70 Hz bis 400 Hz, während die Frequenz des menschlichen Gehörs im Bereich von 20 Hz bis 20 kHz liegt. Unser Gehör ist selektiv und bietet die höchste Empfindlichkeit für die erzeugten Töne im Bereich von 300 Hz bis 10 kHz.

Diese experimentell unterstützten Fakten haben zu der Schlussfolgerung geführt, dass, wenn ein Sprachsignal innerhalb des Bereichs von 0, 3 bis 3, 4 kHz aufgezeichnet wird, die von dem Sprecher übermittelte Information vom Hörer leicht verstanden wird.

Abbildung 1. Die "Speech Banana" zeigt die Phoneme und ihre Frequenzen in verschiedenen Amplituden, die für die Erkennung benötigt werden. Bild mit freundlicher Genehmigung von Clear Value Hearing.

Wenn die Hörfähigkeit in dB ausgedrückt wird, reicht sie von 0 dB SPL (Hörschwelle) bis 130 dB SPL (Schmerzschwelle).

Es gibt ein großes Verhältnis zwischen niedrigeren und höheren Amplituden. In einem allgemeinen Sinn werden Klänge mit niedrigerer Amplitude als Flüstern gedacht, während Klänge mit höherer Amplitude als Schreie betrachtet werden. Jedoch hat selbst normale Konversationssprache beträchtliche Amplitudenvariationen, da sie aus verschiedenen Phonemen besteht. Ferner zeigt sich, dass leisere Phoneme mehr Information tragen und mehr Entropie haben als lautere.

Ein PCM-basiertes Telefonsystem ohne Companding

Telefonsysteme erschienen zuerst als analog in der Natur und sind jetzt digital geworden. Als Ergebnis muss alles, was wir sprechen, digitalisiert und dann übertragen werden, so dass das tatsächliche analoge Sprachsignal eine Wiederherstellung auf der Empfängerseite erfordert. Die Umwandlung eines analogen Signals in seine digitale Form besteht aus drei wichtigen Phasen: Abtasten, Quantisieren und Codieren.

Sampling eines Sprachsignals

Sampling ist ein Prozess, mit dem wir ein ursprüngliches Signal, das zu allen Zeitpunkten definiert ist, in ein diskretes Signal umwandeln können, das nur zu bestimmten Zeitpunkten definiert wird.

Wie entscheiden wir, an welchen Stellen das Signal definiert wird? // www.allaboutcircuits.com/technical-articles/understanding-analog-to-digital-converters-deciphering-resolution-and-sampl/ "target =" _ blank "> Nyquist Satz, der besagt, dass eine getreue Wiederherstellung des übertragenen Signals nur möglich ist, wenn es mindestens mit der Rate der doppelten höchsten Frequenz abgetastet wird, die darin enthalten ist.

Also, wenn die höchste Frequenz f ist, dann sollte die Frequenz, bei der wir das Signal abtasten müssen, größer oder gleich 2 f sein . Dies wiederum bedeutet, dass wir unsere Signale zu den Zeitpunkten definieren müssen, die in einem Abstand von weniger als oder gleich 1/2 f beabstandet sind (aufgrund der Tatsache, dass Frequenz und Zeit umgekehrt proportional zueinander sind).

Aus der Diskussion im vorigen Abschnitt wissen wir, dass unser Interesse an Telefonkonversationen über einen Frequenzbereich von 0, 3 bis 3, 4 kHz reicht. Und jede erfolgreiche Übertragung von Signalen erfordert das Vorhandensein von Schutzbändern, aufgrund derer der Gesamtbereich 0 bis 4 kHz wird. Daher ist in unserem Fall eine Abtastrate von 8 kHz (= 2 x 4 kHz) eine gute Wahl.

Dies zeigt an, dass nach der Abtastung unser Sprachsignal entlang der Zeitachse diskretisiert wird, wobei der Abstand zwischen den benachbarten Abtastwerten $$ \ frac {1} {8 \; \ text {KHz}} = 125 \; \ text ist {μs} $$.

Quantisierung und Codierung von Sprachsignalen

Beachten Sie, dass die Abtastung das Signal nur über die Zeitachse digitalisiert (siehe das typische Beispiel in Abbildung 2, in dem ein rotes Sinussignal durch Abtasten in ein blaues diskretes Signal umgewandelt wird). Um jedoch das Sprachsignal vollständig digital zu machen, müssen wir es selbst entlang seiner Amplitudenachse diskretisieren, was als Quantisierung angesehen wird.

Abbildung 2. Sampling der Sinuswelle

Nun wäre unsere nächste Frage sehr ähnlich wie bei der Abtastung - wie entscheiden wir, wann wir unser Signal entlang seiner Amplitudenachse definieren sollen? Mit anderen Worten, was sollte der Abstand zwischen den Punkten sein, entlang denen wir die Amplitude unseres Signals definieren (dies wird technisch als Schrittgröße bezeichnet)?

Auch in diesem Fall müssen wir die Schrittweite wählen, wobei wir berücksichtigen müssen, dass wir auf der Empfängerseite ein minimales verzerrtes Signal haben müssen. Wenn wir so denken, nehmen wir an, dass wir eine sehr kleine Schrittgröße wählen, um ein Signal mit niedriger Amplitude zu quantisieren (Sinuswelle, die zwischen den Werten +1 und -1 wechselt, die in 3a rosa dargestellt sind). Kleinere Schritte bedeuten, dass wir unser Signal in sehr engen Intervallen entlang seiner Amplitudenachse definieren werden (Abbildung 3a), wodurch die Anzahl der Schritte zur Definition unseres Signals sehr groß sein würde, was eine große Anzahl von Bits erfordert, um es zu codieren erfordert eine große Bandbreite.

Abbildung 3. Quantisierung von Sinuswellen mit niedriger Amplitude mit (a) kleiner Schrittgröße (b) großer Schrittweite

Halten wir den Bandbreite-Punkt im Auge, nehmen wir an, dass wir zu wenige Schritte verwenden, um unser Signal zu definieren. Eine geringere Anzahl von Schritten impliziert einen großen Abstand zwischen den Punkten, an denen wir das Signal entlang seiner Amplitudenachse definieren. Dies erlaubt uns, unser Signal sehr grob zu definieren (Abbildung 3b), was zu Problemen führt, wenn wir das Signal auf der Empfängerseite rekonstruieren, da ein Großteil der vorhandenen Information während der Quantisierung verloren gehen würde.

Als nächstes analysieren wir den Effekt der Variation der Schrittgröße im Falle von Signalen mit großer Amplitude. Dies ist im vorliegenden Kontext wichtig, weil wir aus der Diskussion im Abschnitt über menschliche Sprache und Hörmechanismus wissen, dass unser Signal von Interesse, Sprache, einen breiten Amplitudenbereich umfasst.

Fig. 4 untersucht den Effekt der Quantisierung unter Verwendung der gleichen in Fig. 3 verwendeten Schrittgrßen, wenn die Amplitude um einen Faktor von vier zunimmt (ursprüngliche Sinuswelle in Fig. 4 hat eine Spitze-zu-Spitze-Amplitude, die zwischen +4 und -4 variiert). Hier betont 4a die Tatsache, dass kleinere Schrittgrößen immer dann besser sind, wenn wir das Originalsignal genau replizieren müssen.

Abbildung 4. Quantisierung von Sinuswellen mit großer Amplitude mit (a) kleiner Schrittgröße (b) großer Schrittweite

Ein weiterer wichtiger zu beachtender Punkt ist, dass das quantisierte Signal in Fig. 4b nicht so verzerrt ist wie das in Fig. 3b gezeigte quantisierte Signal. Das heißt, eine Quantisierung unter Verwendung einer großen Schrittgröße erzeugt immer noch akzeptable Ergebnisse, wenn die Signalamplitude höher ist. Dies bedeutet, dass die Schrittgröße, die sich für ein Signal mit niedriger Amplitude als "wirklich groß" erwies, nicht "so groß" ist, wenn es sich um ein Signal mit großer Amplitude handelt. Mit anderen Worten, es kann gesagt werden, dass je höher die Amplitude des Signals ist, desto größer ist die Schrittgröße, um es zu quantisieren, ohne zu viel Verzerrung.

Companding: Eine Einführung

Jeder Forscher glaubt, dass jedes System, egal wie gut, auf die eine oder andere Weise verbessert werden kann. Um herauszufinden, was am besten (oder besser) funktioniert, müssen die Konzepte und Methoden, die derzeit eingesetzt werden, sorgfältig geprüft und aus verschiedenen Perspektiven betrachtet werden.

Um dies in unserem Fall zu erreichen, lassen Sie uns unseren Weg durch den Artikel zurückverfolgen, während wir über zwei wichtige Punkte nachdenken.

Erinnern wir uns zuerst daran, dass die menschliche Sprache nicht isotrop ist, wenn es um die darin enthaltenen Informationen geht. Die leiseren Phoneme der Sprache treten häufiger auf und enthalten mehr Informationen als die lauteren Phoneme. Zweitens, beachte, dass die zur Quantisierung des Signals gewählte Schrittgröße für Signale mit höherer Amplitude im Vergleich zu den niedrigeren größer sein kann (ohne ihre Qualität zu beeinträchtigen).

Wenn das so ist, warum können wir Sprachsignale mit niedriger Amplitude nicht mit kleineren Schritten quantisieren, während wir größere Schritte für Sprachsignale mit höherer Amplitude verwenden? Es kann getan werden. Tatsächlich ist diese Technik des Quantisierens des Sprachsignals unter Verwendung nicht-einheitlicher Pegel als "Kompandieren" bekannt, ein Portmanteau von Komprimieren und Expandieren.

Companding ist der Vorgang, bei dem das Signal unter Verwendung ungleicher Quantisierungspegel codiert wird. Bei dieser Technik werden eine große Anzahl kleiner Pegel zum Codieren der Signale niedriger Amplitude verwendet, während Signale höherer Amplitude unter Verwendung der kleinen Anzahl großer Pegel codiert werden. Dies bedeutet, dass wir mit Hilfe von Kompandierung unser Sprachsignal mit weniger Pegeln quantisieren können, während die erforderliche Genauigkeit beibehalten wird. Ferner bedeutet die geringere Anzahl von Ebenen weniger zu codierende Bits, was eine verringerte Bandbreitenanforderung impliziert.

Fazit

Dieser Artikel führte die Konzepte ein, die sich auf die menschliche Sprache und ihre Eigenschaften in Bezug auf PCM-basierte Telefonsysteme beziehen. Ich hoffe, Sie haben ein oberflächliches Verständnis von Kompandierung und ihrer Bedeutung im Bereich der Telekommunikation erlangt.

Die Details der Kompandierungstechniken und ihre weiteren Vorteile werden im nächsten Artikel dieser Serie behandelt.