ΤΕΧΝΟΛΟΓΙΑ ΟΜΙΛΙΑΣ


Μοντελοποίηση του μηχανισμού παραγωγής και αντίληψης ομιλίας. Ψηφιακή προεπεξεργασία σήματος ομιλίας. Ακουστικές παράμετροι. Κωδικοποίηση ομιλίας στο πεδίο του χρόνου και της συχνότητας. Τεχνητά νευρωνικά δίκτυα. Συστήματα αναγνώρισης ομιλίας και ομιλητή. Σύνθεση ομιλίας. Εφαρμογές.


Στόχοι Μαθήματος

Με την επιτυχή ολοκλήρωση του μαθήματος, οι φοιτητές αναμένεται να γνωρίζουν τα εξής: ·         Μηχανισμοί παραγωγής και αντίληψης ομιλίας ·         Ψηφιακής προεπεξεργασία σήματος ομιλίας ·         Ακουστικές παραμέτροι ·         Ανάλυση LPC και Cepstrum ·         Συντονισμοί φωνητικού καναλιού (Formants) ·         Κωδικοποίηση ομιλίας στο πεδίο χρόνου, στο πεδίο συχνότητας και vocoders ·         Παραμόρφωση δυναμικού χρόνου ·         Κρυμμένα μοντέλα Markov ·         Τεχνητά νευρωνικά δίκτυα ·         Συστήματα αναγνώρισης ομιλίας και ομιλητή ·         Σύνθεση ομιλίας και Text-to-Speech σύστημα 


Προαπαιτούμενες Γνώσεις

Δεν υπάρχουν.


Περιεχόμενα

Μοντελοποίηση του μηχανισμού παραγωγής ομιλίας: Μηχανισμός παραγωγής ομιλίας, Ήχοι ομιλίας, Μοντέλο παραγωγής ομιλίας. Ψηφιακή προεπεξεργασία σήματος ομιλίας: Επιλογή της συχνότητας δειγματοληψίας, Ψηφιοποίηση, Βραχύχρονη ανάλυση σήματος ομιλίας, Επιλογή μήκους πλαισίου, Προέμφαση, Επιλογή φίλτρου "παραθύρου", Ρυθμός μετακίνησης πλαισίων. Ακουστικές παράμετροι: Ενέργεια, Μηδενικές διελεύσεις, Θεμελιώδης συχνότητα, Μέθοδοι υπολογισμού τονικότητας, Φασματογράφημα, Συντονισμοί φωνητικού καναλιού (Formants), Συντελεστές γραμμικής πρόγνωσης (LPC), Τράπεζα φίλτρων, Συντελεστές ανάκλασης, Cepstral Συντελεστές. Τεχνικές επεξεργασίας ομιλίας: Ταίριασμα ακουστικών προτύπων, Παραμόρφωση δυναμικού χρόνου (DTW), Κβαντισμός διανυσμάτων, Ο k-means αλγόριθμος, VQ Codebook με ανάμειξη πυκνοτήτων, Μοντελοποίηση με κρυμμένα μοντέλα Markov (HMM), Forward-backward αλγόριθμος, Viterbi αλγόριθμος. Συστήματα αναγνώρισης ομιλίας. Συστήματα αναγνώρισης ομιλητή. Σύνθεση ομιλίας: Βασικές αρχές, Μέγεθος μονάδων, Τύποι μονάδων, Μέθοδοι σύνθεσης, Συστήματα περιορισμένου-απεριορίστου λεξιλογίου. Σύνθεση άρθρωσης, Σύνθεση με Formants, LPC σύνθεση, Μοντελοποίηση της πηγής διέγερσης, Μοντέλα προσωδίας-επιτονισμού, Εκτίμηση του LPC μοντέλου με διαδικασία δείγματος-δείγματος, Μοντελοποίηση του σήματος ομιλίας με πόλους και μηδενικά, Μέθοδοι υπολογισμού των παραμέτρων του μοντέλου ARMA, Προβλήματα του μοντέλου ARMA. Ψηφιακές τεχνικές αφαίρεσης θορύβου. Κωδικοποίηση ομιλίας: Τεχνικές για την κωδικοποίηση της κυματομορφής ομιλίας (πεδίο χρόνου), Κωδικοποίηση με χρήση του φάσματος ομιλίας (πεδίο συχνότητας), Τεχνικές κωδικοποίησης με τη χρήση ανάλυσης-σύνθεσης (πεδίο συχνότητας), Κωδικοποίηση γραμμικής πρόβλεψης.

ΤΑΥΤΟΤΗΤΑ ΜΑΘΗΜΑΤΟΣ

Βαθμίδα:

Τύπος:

Προπτυχιακό

(A-)


Εκπαιδευτές: Νικόλαος Φακωτάκης
Τμήμα: Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών
Ίδρυμα: Πανεπιστήμιο Πατρών
Θεματική Περιοχή: Επιστήμες Ηλεκτρολόγου Μηχανικού
Άδεια Χρήσης: CC - Αναφορά - Παρόμοια Διανομή

Επισκεφτείτε το μάθημα

ΜΟΙΡΑΣΤΕΙΤΕ ΤΟ ΜΑΘΗΜΑ
ΣΧΕΤΙΚΑ ΜΑΘΗΜΑΤΑ