Sygnał mowy jako nośnik informacji
1
Politechnika WrocławskaInstytut Telekomunikacji i AkustykiZakład Analizy i Przetwarzania
Sygnałów Akustycznych
Sygnał mowy jako nośnik
informacji
Sygnał mowy jako nośnik informacji
2
Plan wykładu
Wstęp, hierarchiczny system syntezy mowy Rodzaje sygnałówTransformata Fourier’a sygnałuPróbkowanie sygnałówSygnał mowy - wytwarzanie, cechy akustyczne
- fonemyDyskretne źródło informacji Kompresja sygnału mowy
Sygnał mowy jako nośnik informacji
3
Hierarchiczny system syntezy mowy
Sygnał mowy jako nośnik informacji
4
Sygnał
Ciągłe Dyskretne i cyfroweDeterministyczne Losowe
Sygnał jest to czynnik będący nośnikiem informacji umożliwiający przesyłanie jej na odległość
Wyróżniamy następujące rodzaje sygnałów:
Sygnał mowy jako nośnik informacji
5
Sygnały dyskretne i cyfrowe
Sygnał mowy jako nośnik informacji
6
Przekształcenie Fourier’a
dtetxfX ftj 2)()(
1
0
)]/2sin()/2)[cos(()(N
n
NnmjNnmnxmX
Postać ciągła:
Postać dyskretna: DFT (Discrete Fourier Transform):
1...,,1,0 Nm
Sygnał mowy jako nośnik informacji
7
Sygnał i jego moduł |DFT|
Przebieg sinusoidalny o częstośliwości 1[kHz]
Moduł DFT sygnały sinusoidalnego 1[kHz]
Sygnał mowy jako nośnik informacji
8
Przebieg czasowy sumy sygnałów sinusoidalnych: 1 oraz 1,5[kHz]
Moduł DFT sumy dwóch sygnałów
Sygnał mowy jako nośnik informacji
9
Przebieg czasowy sumy sygnałów sinusoidalnych:
1000, 1500, oraz 3500 [Hz]
Moduł DFT sumy trzech sygnałów
Sygnał mowy jako nośnik informacji
10
Szybkie przekształcenie Fouriera FFT (Fast Fourier Transform)
FFT – jest to procedura wyznaczania DFT
2N- liczba mnożeń zespolonych w przypadku DFT
NN
2log2
-liczba mnożeń zespolonych w przypadkuFFT
kN 2 - długość analizowanego sygnału w FFT
k – liczba naturalna
Sygnał mowy jako nośnik informacji
11
Przetwarzanie analogowo/cyfrowe sygnałów
1)Pobieranie wartości sygnału w dyskretnych momentach czasu2) Kwantowanie sygnału – przypisanie sygnałowi jednej ze zbioru wartości
Parametry przetwarzania A/C:-Częstotliwość próbkowania fs-Liczba bitów przetwornika
Sygnał mowy jako nośnik informacji
12
Twierdzenie o próbkowaniuKotielnikowa - Shanona
Aby z sygnału spróbkowanego odtworzyć oryginalny sygnał konieczne jest zastosowanie częstotliwości próbkowania co najmniej dwukrotnie większej od maksymalnej częstotliwości składowej sygnału.
max2 ff s Nff max
Nf -częstotliwość graniczna Nyquista
Sygnał mowy jako nośnik informacji
13
Próbkowanie sygnału (dyskretyzacja w czasie)
Sygnał mowy jako nośnik informacji
14
Widmo sygnału telefonicznego
W przypadku telefonii stacjonarnej sygnał zawiera się W paśmie do 3400[Hz] a częstotliwość próbkowania wynosi 8000[Hz] czyli fp>2fmax
Sygnał mowy jako nośnik informacji
15
Przetwarzanie A/C
W rzeczywistości aby warunek: fs>2*fmax był spełnionykonieczne jest zastosowanie filtru dolnoprzepustowegoo częstotliwości granicznej B < fs/2
Sygnał mowy jako nośnik informacji
16
Charakterystyka przetwornika A/C, kwantyzacja sygnału
-Liczba przedziałów kwantowania Gdzie:n – liczba bitów przetwornika
12 n
Sygnał mowy jako nośnik informacji
17
Dynamika sygnału analogowego
;log20min
max10
U
UD
maxU - maksymalna wartość napięcia sygnału
minU - minimalna wartość napięcia sygnału
W przypadku gdy:
szumuUU min => D=S/N
Sygnał mowy jako nośnik informacji
18
Dynamika przetwornika PCM
Aby za pomocą przetwornika n – bitowego przekształcić sygnał analogowy bez zniekształceń konieczne jest spełnienie zależności:
02,6
Dn
Dynamikę przetwarzania analogowego sygnału na sygnałcyfrowy określa się jako:
][02,6)12(log20log20 10minmax
10 dBnq
UUN n
k
q – szerokość przedziału kwantyzacji przetwornika
Twierdzenie o kwantyzacji
Sygnał mowy jako nośnik informacji
19
Liczba bitów przetwornika
n
Dynamika przetwarzania
[dB]
4 24,0
8 48,1
12 72,2
16 96,3
24 144,5
kN
Sygnał mowy jako nośnik informacji
20
Sygnał mowyPasmo: od 70-150[Hz] do 5-7[kHz]Dynamika: Kilkadziesiąt [dB]Szacowana zawartość informacyjna:250[kb/s]
Sygnał mowy jako nośnik informacji
21
Płaszczyzny sygnału mowy
Sygnał mowy jako nośnik informacji
22
Wytwarzanie sygnału mowy
Sygnał mowy jako nośnik informacji
23
Przebieg tonu krtaniowego
Zakres Fo od 100 do 140 [Hz] dla mężczyzn od 200 do 280 [Hz] dla kobiet
Sygnał mowy jako nośnik informacji
24
Model wytwarzania sygnału mowy
Sygnał mowy jako nośnik informacji
25
Częstotliwości formantowe
Sygnał mowy jako nośnik informacji
26
Zakresy częstotliwości 4 pierwszych formantów
Sygnał mowy jako nośnik informacji
27
Sonogram sygnału mowy
Sygnał mowy jako nośnik informacji
28
FonemySą to „atomy” języka. Składają się z nichmorfemy, wyrazy i zdania.
Definicja fonemu:Fonemem określamy „najmniejszy segment dźwiękowy, który może różnicować znaczenia”. W języku polskim wyróżniamy 37 fonemów
Sygnał mowy jako nośnik informacji
29
Lp
Przykład użycia fonemu Fonem
1 wino, lis, siwy
2 ryba, grzyb, myśl
3 rzeka, grzech, Ewa
4 rak, posag, chrzan
5 bok, krowa, kot
6 kurs, buty, róża
7 jama, jutro, kraj
8 łysy, miał, auto
9 ropa, kara, wiatr
Przykłady użycia fonemów
Sygnał mowy jako nośnik informacji
30
Częstości występowania fonemów
Sygnał mowy jako nośnik informacji
31
Transmisja sygnału przez kanał telekomunikacyjny
Jeżeli transmisja bezbłędna:I=I’
Sygnał mowy jako nośnik informacji
32
„Informacja”
Informacja jest to miara niepewności co do tego która z możliwych wiadomości została odebrana. Ilość informacji rośnie ze wzrostem liczby możliwych wiadomości
Sygnał mowy jako nośnik informacji
33
Dyskretne źródło informacji
},...,,{ 21 qsssS )(,...),(),( 21 qsPsPsP
][)(
1log)( 2 bitów
sPsI
ii
Sygnał mowy jako nośnik informacji
34
S
ii bitówsIsP ])[()(
Średnia ilość informacji
S
ii
def
bitówsPsPsH ])[(log)()(
Entropia źródła
Sygnał mowy jako nośnik informacji
35
Entropia alfabetu polskiego
Na podstawie estymat częstości występowania fonemówJassem uzyskał entropie polskiego alfabetu równą:
]/[7506,4)(log)(37
12 fonembitsPsPH
niip
Sygnał mowy jako nośnik informacji
36
Kompresja sygnału mowy
W sygnale mowy występuje nadmiarowość informacji. Od początku istnienia telefonii starano się ograniczyć zawartość informa – cyjną sygnału mowy, ze względu na wąskopasmowe kanały transmisyjne.
Pierwsze ograniczenie sygnału mowy Występuje w momencie zawężenia pasma do zakresu od 300 do 3400 [Hz]
Sygnał mowy jako nośnik informacji
37
Obecnie najczęściej sygnał jest przetwarzany na sygnał cyfrowy.
Przetwarzanie analogowo/cyfrowe stanowi najprostszą wersję kompresji sygnału mowy. Nieskończoną liczbę wartości zastępuje się skończonym zbiorem wynikającym z liczby poziomów kwantyzacji przetwornika
Sygnał mowy jako nośnik informacji
38
Przepływności kanałów przy transmisji sygnału mowy
Sygnał mowy jako nośnik informacji
39
System PCM
W systemach telekomunikacyjnych wykorzy – stuje się standard PCM.W standardzie tym sygnał przetwarza sięprzy pomocy przetworników 8 bitowych,częstotliwości próbkowania równej 8000[Hz].Aby uzyskać lepszą jakość sygnału na wejściu przetwornika sygnał poddawany jest kompresji.Stosuje się kompresje wg. dwóch rodzajów krzywych A lub
Sygnał mowy jako nośnik informacji
40
Charakterystyka kompresji typu
)1log(
|)|1log(||
mv
V – znormalizowane napięcie wyjściowe
m – znormalizowane napięcie wejściowe
– stała dodatnia
Sygnał mowy jako nośnik informacji
41
ADPCM – Adaptacyjny PCM
ADPCM – wykorzystuje zmienny w czasie przedział kwantowania, zmieniający się w zależności od zmian sygnału wejściowego. (Adaptuje się do zmian sygnału wejściowego).
Sygnał mowy jako nośnik informacji
42
Kodowanie LPC sygnału mowy
Model generacji sygnału mowy
Sygnał mowy jako nośnik informacji
43
W wyniku działania kodera każde 180 próbek zamienianejest na 12 parametrów.
}...,,,,{ 101 aaGT
T – okres pobudzeniaG – wzmocnienie
101 ...,, aa - współczynniki filtru traktu głosowego
W standardzie LPC-10 wszystkie współczynnikizakodowane są na 54 bitach.
Sygnał mowy jako nośnik informacji
44
Kompresja sygnału mowy
Algorytm Stopień kompresji
Strumień bitowy [kb/s]
PCM(G.711)
1:1 64
ADPCM (G.726)
2:1 32
RPE-LPT (GSM)
5:1 13
LPC-10 27:1 2,4
Top Related