Ο πρώτος υπολογιστής που ταιριάζει με ανθρώπους στην αναγνώριση ομιλίας

Μία προς μία, οι δεξιότητες που μας χωρίζουν από τις μηχανές πέφτουν στη στήλη των μηχανών. Πρώτα ήταν το σκάκι, μετά Διακινδύνευση! , μετά Go, μετά αναγνώριση αντικειμένων, αναγνώριση προσώπου και γενικά βιντεοπαιχνίδια. Θα μπορούσατε να σας συγχωρέσουν που πιστεύετε ότι οι άνθρωποι γίνονται απαρχαιωμένοι.



Αλλά δοκιμάστε οποιοδήποτε λογισμικό αναγνώρισης φωνής και η πίστη σας στην ανθρωπότητα θα αποκατασταθεί γρήγορα. Αν και καλά και βελτιώνονται, αυτά τα συστήματα δεν είναι σε καμία περίπτωση τέλεια. Παραγγέλνεις παγωτό ή λες ουρλιάζω; Πιθανώς και τα δύο, αν πρόκειται για ένα μηχάνημα με το οποίο μιλάτε.

Επομένως, θα πρέπει να είναι καθησυχαστικό να γνωρίζουμε ότι η συνηθισμένη αναγνώριση ομιλίας είναι κάτι για το οποίο οι μηχανές εξακολουθούν να αγωνίζονται - ότι οι άνθρωποι εξακολουθούν να είναι κύριοι της γλώσσας τους.





Αυτή η άποψη ίσως πρέπει να αλλάξει. Γρήγορα. Σήμερα, ο Geoff Zweig και οι φίλοι του στο Microsoft Research στο Redmond της Ουάσιγκτον, λένε ότι έχουν σπάσει αυτό το είδος αναγνώρισης ομιλίας και ότι οι αλγόριθμοι μηχανικής μάθησης ξεπερνούν πλέον τους ανθρώπους για πρώτη φορά στην αναγνώριση της συνηθισμένης ομιλίας.

Η έρευνα για την αναγνώριση ομιλίας έχει μακρά ιστορία. Στη δεκαετία του 1950, οι πρώτοι υπολογιστές μπορούσαν να αναγνωρίσουν έως και 10 λέξεις που ειπώθηκαν καθαρά από έναν μόνο ομιλητή. Στη δεκαετία του 1980, οι ερευνητές κατασκεύασαν μηχανές που μπορούσαν να μεταγράψουν απλή ομιλία με λεξιλόγιο 1.000 λέξεων. Στη δεκαετία του 1990 προχώρησαν σε ηχογραφήσεις ενός ατόμου που διάβαζε το Wall Street Journal , και μετά σε ομιλία ειδήσεων μετάδοσης.

Όλα αυτά τα σενάρια είναι όλο και πιο φιλόδοξα. Αλλά είναι επίσης πιο απλοί από τον συνηθισμένο λόγο λόγω διαφόρων περιορισμών. Το λεξιλόγιο στο Wall Street Journal περιορίζεται στις επιχειρήσεις και τα οικονομικά, και οι προτάσεις είναι καλά δομημένες και γραμματικά σωστές, κάτι που δεν ισχύει απαραίτητα για τη συνηθισμένη ομιλία. Η ομιλία ειδήσεων που εκπέμπεται είναι λιγότερο τυπική, αλλά εξακολουθεί να είναι δομημένη και σαφώς προφέρεται. Όλα αυτά τα παραδείγματα έχουν τελικά κατακτηθεί από μηχανές.



ποιο από τα παρακάτω είναι ακριβής περιγραφή του «νόμου του Μουρ»;

Αλλά το πιο δύσκολο έργο - η μεταγραφή της συνηθισμένης ομιλίας - έχει αντισταθεί σταθερά στην επίθεση.

Η συνηθισμένη ομιλία είναι σημαντικά πιο δύσκολη λόγω του μεγέθους του λεξιλογίου και επίσης λόγω των θορύβων που κάνουν οι άνθρωποι όταν μιλούν εκτός από τις λέξεις. Οι άνθρωποι χρησιμοποιούν μια σειρά από θορύβους για να διαχειριστούν τη στροφή στη συνομιλία, έναν τύπο επικοινωνίας που οι γλωσσολόγοι αποκαλούν backchannel.

Για παράδειγμα, α-χα χρησιμοποιείται για να αναγνωρίσει τον ομιλητή και να δώσει σήμα ότι πρέπει να συνεχίσει να μιλάει. Αλλά ε είναι ένας δισταγμός που δείχνει ότι ο ομιλητής έχει περισσότερα να πει, μια προειδοποίηση ότι θα ακολουθήσουν κι άλλα. Με τη σειρά της η διαχείριση, ε παίζει τον αντίθετο ρόλο α-χα .

Οι άνθρωποι έχουν μικρή δυσκολία να αναλύσουν αυτούς τους ήχους και να κατανοήσουν τον ρόλο τους σε μια συζήτηση. Αλλά οι μηχανές πάντα πάλευαν μαζί τους.



Το 2000, το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας κυκλοφόρησε ένα σύνολο δεδομένων για να βοηθήσει τους ερευνητές να αντιμετωπίσουν αυτό το πρόβλημα. Τα δεδομένα αποτελούνταν από ηχογραφήσεις συνηθισμένων συνομιλιών στο τηλέφωνο. Μερικές από αυτές ήταν συνομιλίες μεταξύ ατόμων για ένα συγκεκριμένο θέμα. Τα υπόλοιπα ήταν συζητήσεις μεταξύ φίλων και συγγενών για οποιοδήποτε θέμα.

Τα περισσότερα από τα δεδομένα ήταν να βοηθήσουν στην εκπαίδευση ενός αλγόριθμου μηχανικής μάθησης για την αναγνώριση της ομιλίας. Τα υπόλοιπα ήταν μια δοκιμή που έπρεπε να μεταγράψουν οι μηχανές.

Το μέτρο της απόδοσης ήταν ο αριθμός των λέξεων που το μηχάνημα έκανε λάθος και ο απώτερος στόχος ήταν να κάνει την εργασία καλύτερα από τους ανθρώπους.

Πόσο καλοί είναι λοιπόν οι άνθρωποι; Η γενική συναίνεση είναι ότι όταν πρόκειται για μεταγραφή, οι άνθρωποι έχουν ποσοστό σφάλματος περίπου 4 τοις εκατό. Με άλλα λόγια, μεταγράφουν λανθασμένα τέσσερις λέξεις σε κάθε εκατό. Στο παρελθόν, οι μηχανές δεν πλησίαζαν πουθενά αυτό το σημείο αναφοράς.

Τώρα η Microsoft λέει ότι επιτέλους ανταποκρίθηκε στις ανθρώπινες επιδόσεις, αν και με μια σημαντική προειδοποίηση. Οι ερευνητές της Microsoft ξεκίνησαν επαναξιολογώντας την ανθρώπινη απόδοση σε εργασίες μεταγραφής. Το έκαναν αυτό στέλνοντας τις τηλεφωνικές ηχογραφήσεις στο σύνολο δεδομένων NIST σε μια επαγγελματική υπηρεσία μεταγραφής και μετρώντας το ποσοστό σφάλματος.

Προς έκπληξή τους, διαπίστωσαν ότι αυτή η υπηρεσία είχε ποσοστό λάθους 5,9 τοις εκατό για τις συνομιλίες μεταξύ ατόμων σε ένα συγκεκριμένο θέμα και 11,3 τοις εκατό για τις συνομιλίες μεταξύ φίλων και μελών της οικογένειας. Αυτό είναι πολύ υψηλότερο από ό,τι πιστεύαμε.

Στη συνέχεια, ο Zweig και από κοινού βελτιστοποίησαν τα δικά τους συστήματα βαθιάς μάθησης που βασίζονται σε συνελικτικά νευρωνικά δίκτυα με ποικίλο αριθμό επιπέδων, καθένα από τα οποία επεξεργάζεται μια διαφορετική πτυχή της ομιλίας. Στη συνέχεια χρησιμοποίησαν το σύνολο δεδομένων εκπαίδευσης για να διδάξουν το μηχάνημα να κατανοεί τη συνηθισμένη ομιλία και να το αφήσει να χαλαρώσει στο σύνολο δεδομένων δοκιμής.

Τα αποτελέσματα: συνολικά, το σύστημα αναγνώρισης ομιλίας της Microsoft έχει παρόμοιο ποσοστό σφάλματος με τον άνθρωπο, αλλά τα είδη των σφαλμάτων που κάνει είναι μάλλον διαφορετικά.

Το πιο συνηθισμένο σφάλμα που κάνει το μηχάνημα της Microsoft είναι να συγχέει τους ήχους του backchannel εεεεεεεεεε . Αντίθετα, οι άνθρωποι σπάνια κάνουν αυτό το λάθος και τείνουν να συγχέουν λέξεις όπως προς το και ο ή ε και προς το .

Δεν υπάρχει καταρχήν λόγος για τον οποίο ένα μηχάνημα δεν μπορεί να εκπαιδευτεί ώστε να αναγνωρίζει ήχους backchannel. Οι Zweig και συνεργάτες πιστεύουν ότι η δυσκολία που έχει το μηχάνημα με αυτά σχετίζεται πιθανώς με τον τρόπο με τον οποίο αυτοί οι θόρυβοι επισημαίνονται στο σύνολο δεδομένων εκπαίδευσης. Η σχετικά κακή απόδοση του αυτόματου συστήματος εδώ μπορεί απλώς να οφείλεται σε σύγχυση στους σχολιασμούς των δεδομένων εκπαίδευσης, λένε.

Συνολικά, ωστόσο, το μηχάνημα ταιριάζει με το ποσοστό ανθρώπινου λάθους 5,9 τοις εκατό για τις συνομιλίες σε ένα εκχωρημένο θέμα, αλλά ξεπερνά τους ανθρώπους στο έργο της μεταγραφής συνομιλιών φίλων και οικογένειας με ποσοστό σφάλματος 11,1 τοις εκατό. Για πρώτη φορά, αναφέρουμε απόδοση αυτόματης αναγνώρισης ίση με την ανθρώπινη απόδοση σε αυτήν την εργασία, λένε οι Zweig και συνεργάτες.

Είναι ενδιαφέρουσα δουλειά. Η Microsoft μπορεί να έχει μετακινήσει τα γκολπόστ καταγράφοντας αυτή τη νίκη για τις μηχανές της, αλλά η γραφή είναι ξεκάθαρα στον τοίχο. Οι μηχανές γίνονται καλύτερες από τους ανθρώπους στην αναγνώριση ομιλίας. Αυτό θα έχει σημαντικές επιπτώσεις στον τρόπο με τον οποίο αλληλεπιδρούμε με τις μηχανές, ιδίως όταν πρόκειται για την παραγγελία παγωτού.

Αναφ.: arxiv.org/abs/1610.05256 : Επίτευξη ανθρώπινης ισοτιμίας στην αναγνώριση ομιλίας

κρύβω

Πραγματικές Τεχνολογίες

Κατηγορία

Χωρίς Κατηγοριοποίηση

Τεχνολογία

Βιοτεχνολογία

Τεχνική Πολιτική

Την Αλλαγή Του Κλίματος

Άνθρωποι Και Τεχνολογία

Silicon Valley

Χρήση Υπολογιστή

Περιοδικό Mit News

Τεχνητή Νοημοσύνη

Χώρος

Έξυπνες Πόλεις

Blockchain

Feature Story

Προφίλ Αποφοίτων

Σύνδεση Αποφοίτων

Δυνατότητα Ειδήσεων Mit

1865

Η Θέα Μου

77 Mass Ave

Γνωρίστε Τον Συγγραφέα

Προφίλ Στη Γενναιοδωρία

Βλέπεται Στην Πανεπιστημιούπολη

Επιστολές Αποφοίτων

Νέα

Εκλογές 2020

Με Ευρετήριο

Κάτω Από Τον Θόλο

Πυροσβεστική Μάνικα

Άπειρες Ιστορίες

Πανδημικό Τεχνολογικό Έργο

Από Τον Πρόεδρο

Θέμα Εξώφυλλου

Φωτογραφίες

Συνιστάται