Η τεχνητή νοημοσύνη έχει κερδίσει ανθρώπους στο διάβασμα των χειλιών

Η ανάγνωση των χειλιών είναι εμφανώς δύσκολη, εξαρτάται τόσο από το πλαίσιο και τη γνώση της γλώσσας όσο και από οπτικές ενδείξεις. Ωστόσο, οι ερευνητές δείχνουν ότι η μηχανική μάθηση μπορεί να χρησιμοποιηθεί για να διακρίνει την ομιλία από τα σιωπηλά βίντεο κλιπ πιο αποτελεσματικά από ό,τι οι επαγγελματίες αναγνώστες χειλιών.



Σε ένα έργο, μια ομάδα από το Τμήμα Επιστήμης Υπολογιστών του Πανεπιστημίου της Οξφόρδης ανέπτυξε ένα νέο σύστημα τεχνητής νοημοσύνης που ονομάζεται LipNet. Οπως και Ο Quartz ανέφερε , το σύστημά του χτίστηκε σε ένα σύνολο δεδομένων γνωστό ως GRID, το οποίο αποτελείται από καλά φωτισμένα, στραμμένα προς τα εμπρός κλιπ ανθρώπων που διαβάζουν προτάσεις τριών δευτερολέπτων. Κάθε πρόταση βασίζεται σε μια σειρά λέξεων που ακολουθούν το ίδιο μοτίβο.

πράγματα που πρέπει να εφευρεθούν το 2018

Η ομάδα χρησιμοποίησε αυτό το σύνολο δεδομένων για να εκπαιδεύσει ένα νευρωνικό δίκτυο, παρόμοιο με το είδος που χρησιμοποιείται συχνά για την εκτέλεση αναγνώρισης ομιλίας. Σε αυτή την περίπτωση, ωστόσο, το νευρωνικό δίκτυο εντοπίζει παραλλαγές στο σχήμα του στόματος με την πάροδο του χρόνου, μαθαίνοντας να συνδέει αυτές τις πληροφορίες με μια εξήγηση του τι λέγεται. Η τεχνητή νοημοσύνη δεν αναλύει το υλικό σε αρασέ, αλλά εξετάζει το σύνολο, επιτρέποντάς του να κατανοήσει το πλαίσιο από την πρόταση που αναλύεται. Αυτό είναι σημαντικό, γιατί υπάρχουν λιγότερα σχήματα στόματος από ό,τι οι ήχοι που παράγονται από την ανθρώπινη φωνή.





Πότε δοκιμασμένο , το σύστημα μπόρεσε να αναγνωρίσει σωστά το 93,4 τοις εκατό των λέξεων. Οι εθελοντές που διαβάζουν τα χείλη από ανθρώπους που ζητήθηκαν να εκτελέσουν τις ίδιες εργασίες εντόπισαν μόνο το 52,3 τοις εκατό των λέξεων σωστά.

Αλλά όπως και Νέος Επιστήμονας Αναφορές , μια άλλη ομάδα από το Τμήμα Μηχανικής Επιστήμης της Οξφόρδης, η οποία συνεργάζεται με το Google DeepMind, απέσπασε ένα μάλλον πιο δύσκολο έργο. Αντί να χρησιμοποιεί ένα τακτοποιημένο και σταθερό σύνολο δεδομένων όπως το GRID, χρησιμοποιεί μια σειρά από 100.000 βίντεο κλιπ που έχουν ληφθεί από την τηλεόραση του BBC. Αυτά τα βίντεο έχουν πολύ ευρύτερο εύρος γλώσσας, με πολύ μεγαλύτερη ποικιλία στο φωτισμό και τις θέσεις του κεφαλιού.

Χρησιμοποιώντας παρόμοια προσέγγιση , η ομάδα της Oxford και της DeepMind κατάφερε να δημιουργήσει μια τεχνητή νοημοσύνη που ήταν σε θέση να αναγνωρίσει σωστά το 46,8 τοις εκατό όλων των λέξεων. Αυτό είναι επίσης πολύ καλύτερο από τους ανθρώπους, οι οποίοι κατέγραψαν μόνο το 12,4 τοις εκατό των λέξεων χωρίς λάθος. Υπάρχουν σαφώς πολλοί λόγοι για τους οποίους η ακρίβεια είναι χαμηλότερη, από τον φωτισμό και τον προσανατολισμό έως τη μεγαλύτερη πολυπλοκότητα της γλώσσας.



Πέρα από τις διαφορές, και τα δύο πειράματα δείχνουν ότι η τεχνητή νοημοσύνη υπερτερεί κατά πολύ των ανθρώπων στην ανάγνωση των χειλιών και δεν είναι δύσκολο να φανταστεί κανείς πιθανές εφαρμογές για τέτοιο λογισμικό. Στο μέλλον, το Skype θα μπορούσε να καλύψει τα κενά όταν ένας καλών, ας πούμε, βρίσκεται σε θορυβώδες περιβάλλον ή άτομα με προβλήματα ακοής θα μπορούσαν να κρατήσουν το smartphone τους ψηλά για να ακούσουν τι λέει κάποιος.

μπορώ να έχω το τηλέφωνό μου

(Διαβάστε περισσότερα: Χαλαζίας , Νέος Επιστήμονας , Oxford Machine Learning Group Reading , arXiv , Οι προκλήσεις και οι απειλές της αυτοματοποιημένης ανάγνωσης χειλιών )

κρύβω

Πραγματικές Τεχνολογίες

Κατηγορία

Χωρίς Κατηγοριοποίηση

Τεχνολογία

Βιοτεχνολογία

Τεχνική Πολιτική

Την Αλλαγή Του Κλίματος

Άνθρωποι Και Τεχνολογία

Silicon Valley

Χρήση Υπολογιστή

Περιοδικό Mit News

Τεχνητή Νοημοσύνη

Χώρος

Έξυπνες Πόλεις

Blockchain

Feature Story

Προφίλ Αποφοίτων

Σύνδεση Αποφοίτων

Δυνατότητα Ειδήσεων Mit

1865

Η Θέα Μου

77 Mass Ave

Γνωρίστε Τον Συγγραφέα

Προφίλ Στη Γενναιοδωρία

Βλέπεται Στην Πανεπιστημιούπολη

Επιστολές Αποφοίτων

Νέα

Εκλογές 2020

Με Ευρετήριο

Κάτω Από Τον Θόλο

Πυροσβεστική Μάνικα

Άπειρες Ιστορίες

Πανδημικό Τεχνολογικό Έργο

Από Τον Πρόεδρο

Θέμα Εξώφυλλου

Φωτογραφίες

Συνιστάται