Οι μηχανές μπορούν τώρα να αναγνωρίσουν κάτι αφού το δουν μια φορά

Οι περισσότεροι από εμάς μπορούμε να αναγνωρίσουμε ένα αντικείμενο αφού το δούμε μία ή δύο φορές. Αλλά οι αλγόριθμοι που τροφοδοτούν την όραση και την αναγνώριση φωνής από τον υπολογιστή χρειάζονται χιλιάδες παραδείγματα για να εξοικειωθούν με κάθε νέα εικόνα ή λέξη.



Οι ερευνητές στο Google DeepMind έχουν τώρα έναν τρόπο να το αντιμετωπίσουν. Αυτοί έκανε μερικές έξυπνες αλλαγές σε έναν αλγόριθμο βαθιάς μάθησης που του επιτρέπει να αναγνωρίζει αντικείμενα σε εικόνες και άλλα πράγματα από ένα μόνο παράδειγμα—κάτι που είναι γνωστό ως «εκμάθηση με μία λήψη». Η ομάδα έδειξε το κόλπο σε μια μεγάλη βάση δεδομένων εικόνων με ετικέτα, καθώς και στο χειρόγραφο και τη γλώσσα.

Οι καλύτεροι αλγόριθμοι μπορούν να αναγνωρίσουν πράγματα αξιόπιστα, αλλά η ανάγκη τους για δεδομένα καθιστά χρονοβόρα και δαπανηρή την κατασκευή τους. Ένας αλγόριθμος που έχει εκπαιδευτεί να εντοπίζει αυτοκίνητα στο δρόμο, για παράδειγμα, χρειάζεται να απορροφήσει πολλές χιλιάδες παραδείγματα για να λειτουργήσει αξιόπιστα σε ένα αυτοκίνητο χωρίς οδηγό. Η συλλογή τόσων πολλών δεδομένων είναι συχνά ανέφικτη - ένα ρομπότ που χρειάζεται να περιηγηθεί σε ένα άγνωστο σπίτι, για παράδειγμα, δεν μπορεί να ξοδέψει αμέτρητες ώρες περιπλανώμενος στη μάθηση.





Ο Oriol Vinyals, ένας ερευνητής στο Google DeepMind, μια θυγατρική της Alphabet στο Ηνωμένο Βασίλειο που εστιάζει στην τεχνητή νοημοσύνη, πρόσθεσε ένα στοιχείο μνήμης σε ένα σύστημα βαθιάς μάθησης—ένα είδος μεγάλου νευρωνικού δικτύου που είναι εκπαιδευμένο να αναγνωρίζει πράγματα προσαρμόζοντας την ευαισθησία του πολλά στρώματα διασυνδεδεμένων συστατικών είναι περίπου ανάλογα με τους νευρώνες ενός εγκεφάλου. Τέτοια συστήματα πρέπει να δουν πολλές εικόνες για να τελειοποιήσουν τις συνδέσεις μεταξύ αυτών των εικονικών νευρώνων.

Η ομάδα έδειξε τις δυνατότητες του συστήματος σε μια βάση δεδομένων με φωτογραφίες με ετικέτα που ονομάζεται ImageNet . Το λογισμικό χρειάζεται ακόμα να αναλύσει αρκετές εκατοντάδες κατηγορίες εικόνων, αλλά μετά από αυτό μπορεί να μάθει να αναγνωρίζει νέα αντικείμενα - ας πούμε, έναν σκύλο - από μία μόνο εικόνα. Μαθαίνει αποτελεσματικά να αναγνωρίζει τα χαρακτηριστικά των εικόνων που τις κάνουν μοναδικές. Ο αλγόριθμος ήταν σε θέση να αναγνωρίσει εικόνες σκύλων με ακρίβεια κοντά σε ένα συμβατικό σύστημα που διψούσε για δεδομένα αφού είδε μόνο ένα παράδειγμα.

Ο Vinyals λέει ότι το έργο θα μπορούσε να είναι ιδιαίτερα χρήσιμο εάν μπορούσε να αναγνωρίσει γρήγορα τη σημασία μιας νέας λέξης. Αυτό θα μπορούσε να είναι σημαντικό για την Google, λέει η Vinyals, καθώς θα μπορούσε να επιτρέψει σε ένα σύστημα να μάθει γρήγορα την έννοια ενός νέου όρου αναζήτησης.



Άλλοι έχουν αναπτύξει συστήματα μάθησης μίας λήψης, αλλά αυτά συνήθως δεν είναι συμβατά με συστήματα βαθιάς μάθησης. Ένα ακαδημαϊκό έργο πέρυσι χρησιμοποίησε τεχνικές πιθανολογικού προγραμματισμού για να επιτρέψει αυτό το είδος πολύ αποτελεσματικής μάθησης (βλ. «Αυτός ο αλγόριθμος μαθαίνει εργασίες όσο γρήγορα όσο κάνουμε»).

Όμως τα συστήματα βαθιάς μάθησης γίνονται πιο ικανά, ειδικά με την προσθήκη μηχανισμών μνήμης. Μια άλλη ομάδα στο Google DeepMind ανέπτυξε πρόσφατα ένα δίκτυο με ένα ευέλικτο είδος μνήμης, που το καθιστά ικανό να εκτελεί απλές συλλογιστικές εργασίες—για παράδειγμα, μαθαίνοντας πώς να περιηγείστε σε ένα σύστημα μετρό μετά από ανάλυση πολλών πολύ απλούστερων διαγραμμάτων δικτύου (δείτε « Τι συμβαίνει όταν δίνεις ένας υπολογιστής μια μνήμη εργασίας; ').

«Πιστεύω ότι αυτή είναι μια πολύ ενδιαφέρουσα προσέγγιση, η οποία παρέχει έναν καινοτόμο τρόπο εκμάθησης μίας λήψης σε τέτοια σύνολα δεδομένων μεγάλης κλίμακας», λέει Σανγκ Γουάν Λι , ο οποίος ηγείται του Εργαστηρίου Εγκεφαλικής και Μηχανικής Νοημοσύνης στο Κορεατικό Προηγμένο Ινστιτούτο Επιστήμης και Τεχνολογίας στο Daejeon της Νότιας Κορέας. «Πρόκειται για μια τεχνική συνεισφορά στην κοινότητα της τεχνητής νοημοσύνης, κάτι που οι ερευνητές όρασης υπολογιστών θα μπορούσαν να εκτιμήσουν πλήρως».

Άλλοι είναι πιο δύσπιστοι σχετικά με τη χρησιμότητά του, δεδομένου του πόσο διαφορετικό εξακολουθεί να είναι από την ανθρώπινη μάθηση. Για ένα πράγμα, λέει Σαμ Γκέρσμαν , επίκουρος καθηγητής στο Τμήμα Επιστήμης του Εγκεφάλου του Χάρβαρντ, οι άνθρωποι μαθαίνουν γενικά κατανοώντας τα στοιχεία που συνθέτουν μια εικόνα, η οποία μπορεί να απαιτεί κάποια γνώση του πραγματικού κόσμου ή της κοινής λογικής. Για παράδειγμα, «ένα Segway μπορεί να φαίνεται πολύ διαφορετικό από ένα ποδήλατο ή μοτοσικλέτα, αλλά μπορεί να αποτελείται από τα ίδια μέρη».



Σύμφωνα με τον Gershman και τον Wan Lee, θα περάσει αρκετός καιρός μέχρι οι μηχανές να ταιριάξουν με την ανθρώπινη μάθηση. «Παραμένουμε ακόμα πολύ μακριά από το να αποκαλύψουμε το μυστικό των ανθρώπων για την εκτέλεση μιας μάθησης», λέει ο Wan Lee, «αλλά αυτή η πρόταση σαφώς θέτει νέες προκλήσεις που αξίζουν περαιτέρω μελέτη».

κρύβω

Πραγματικές Τεχνολογίες

Κατηγορία

Χωρίς Κατηγοριοποίηση

Τεχνολογία

Βιοτεχνολογία

Τεχνική Πολιτική

Την Αλλαγή Του Κλίματος

Άνθρωποι Και Τεχνολογία

Silicon Valley

Χρήση Υπολογιστή

Περιοδικό Mit News

Τεχνητή Νοημοσύνη

Χώρος

Έξυπνες Πόλεις

Blockchain

Feature Story

Προφίλ Αποφοίτων

Σύνδεση Αποφοίτων

Δυνατότητα Ειδήσεων Mit

1865

Η Θέα Μου

77 Mass Ave

Γνωρίστε Τον Συγγραφέα

Προφίλ Στη Γενναιοδωρία

Βλέπεται Στην Πανεπιστημιούπολη

Επιστολές Αποφοίτων

Νέα

Εκλογές 2020

Με Ευρετήριο

Κάτω Από Τον Θόλο

Πυροσβεστική Μάνικα

Άπειρες Ιστορίες

Πανδημικό Τεχνολογικό Έργο

Από Τον Πρόεδρο

Θέμα Εξώφυλλου

Φωτογραφίες

Συνιστάται