Το AI Machine προσπαθεί να κατανοήσει τα κόμικ… και αποτυγχάνει

Ο κατάλογος των δραστηριοτήτων στις οποίες οι μηχανές τεχνητής νοημοσύνης έχουν νικήσει τους ανθρώπους αυξάνεται με ανησυχητικό ρυθμό. Η αναγνώριση προσώπου, η αναγνώριση αντικειμένων, το σκάκι, το Go, διάφορα βιντεοπαιχνίδια και πολλές άλλες εργασίες έχουν πέσει όλα σε αυτή τη μάχη.



η Νέα Υόρκη απαιτεί απόδειξη εμβολιασμού;

Επομένως, είναι φυσικό να ρωτάμε για τους τύπους εργασιών με τις οποίες οι μηχανές εξακολουθούν να δυσκολεύονται. Πού εξακολουθούν να κυριαρχούν οι άνθρωποι;

Σήμερα, λαμβάνουμε μια κάπως απάντηση χάρη στη δουλειά του Mohit Iyyer στο Πανεπιστήμιο του Maryland στο College Park και σε μερικούς φίλους. Αυτοί οι τύποι ρωτούν πόσο καλά η τεχνητή νοημοσύνη μπορεί να κατανοήσει τα κόμικς και δύσκολα μπορεί να αντισταθεί στο να χτυπήσει τον αέρα αποκαλύπτοντας ότι οι μηχανές έρχονται λυπηρά σε δεύτερη μοίρα σε σύγκριση με τους ανθρώπους.





Τα κόμικς αφηγούνται ιστορίες χρησιμοποιώντας μια σειρά από πάνελ που αποτελούνται από ζωγραφισμένες στο χέρι και συχνά πολύ στυλιζαρισμένες εικόνες που έχουν πολύ διαφορετικό χαρακτήρα από φωτογραφίες. Αυτά τα πάνελ σχολιάζονται επίσης με κείμενο με τη μορφή φυσαλίδων σκέψης, μπαλονιών ομιλίας και πλαισίων αφήγησης.

Το κείμενο και οι εικόνες συνεργάζονται στενά. συχνά τόσο προσεκτικά που η ιστορία δεν μπορεί να παρακολουθηθεί χρησιμοποιώντας μόνο τις εικόνες ή το κείμενο. Ακόμη και τότε, ο αναγνώστης πρέπει να κάνει σημαντικά συμπεράσματα και παρεκβολές όταν πηδά από πίνακα σε πίνακα. Πολλές λεπτομέρειες πρέπει να συμπληρώσει ο αναγνώστης.

Είναι αυτό που κρύβει ο δημιουργός από τις σελίδες του που κάνει τα κόμικς πραγματικά ενδιαφέροντα, οι ανείπωτες συζητήσεις και οι αόρατες ενέργειες που παραμονεύουν στους χώρους (ή τις υδρορροές) μεταξύ των παρακείμενων πάνελ, ας πούμε ο Iyyer και ο συνεργάτης. Με την αποκρυπτογράφηση αυτών των λεπτομερειών σφυρηλατείται η ιστορία στη φαντασία των αναγνωστών.



Αυτή η πολύπλοκη διαδικασία προβολής ενός μεμονωμένου πίνακα και κατανόησης του τρόπου με τον οποίο συνδέεται με προηγούμενα ονομάζεται κλείσιμο. Και προς το παρόν είναι μια μοναδικά ανθρώπινη ικανότητα.

Αυτός είναι ο λόγος για τον οποίο ο Iyyer και οι συνεργάτες επινόησαν ένα πείραμα για να ελέγξουν πόσο καλά μπορούν να το εκτελέσουν και οι μηχανές.

Αυτοί οι τύποι ξεκινούν δημιουργώντας μια μεγάλη βάση δεδομένων με ιστορίες κόμικ που μπορούν να χρησιμοποιήσουν για να εκπαιδεύσουν μηχανές βαθιάς μάθησης. Το δημιουργούν χρησιμοποιώντας κόμικς που εκδόθηκαν μεταξύ της δεκαετίας του 1930 και του 1950. Αυτή ήταν η λεγόμενη χρυσή εποχή των κόμικ, η οποία τελείωσε στα τέλη της δεκαετίας του 1950, όταν εισήχθησαν αυστηροί κανονισμοί λογοκρισίας στις Ηνωμένες Πολιτείες. τη μορφή των jpeg που έχουν ανεβάσει ο χρήστης.

Ο Iyyer και η συνεργασία χρησιμοποίησαν 4.000 από τα βιβλία κόμικς με την υψηλότερη βαθμολογία στον ιστότοπο, δημιουργώντας μια βάση δεδομένων με περισσότερα από 1,2 εκατομμύρια πάνελ. Χρησιμοποιούν οπτική αναγνώριση χαρακτήρων για την ψηφιοποίηση του κειμένου σε κάθε πίνακα.



Για να δοκιμάσουν το κλείσιμο, ο Iyyer και οι συνεργάτες επινοούν ένα σύνολο πειραμάτων στα οποία μια μηχανή εμφανίζεται μια ακολουθία πλαισίων και στη συνέχεια πρέπει να προβλέψει τι θα ακολουθήσει από ένα σύνολο πιθανών απαντήσεων. Η εργασία μπορεί να είναι η πρόβλεψη της επόμενης εικόνας ή του επόμενου κειμένου ή η αντιστοίχιση του κειμένου με έναν συγκεκριμένο χαρακτήρα.

Πρώτα, η μηχανή πρέπει να μάθει πώς λειτουργούν τα κόμικ. Έτσι, η ομάδα τροφοδότησε ένα ποσοστό από τα πάνελ και τα κείμενα σε διάφορους αλγόριθμους μηχανικής μάθησης, ώστε να μπορούν να μάθουν πώς τα πάνελ ακολουθούν το ένα το άλλο. Αυτά τα μηχανήματα είναι προεκπαιδευμένα για να αναγνωρίζουν αντικείμενα αλλά σε φυσικές εικόνες και όχι σε κινούμενα σχέδια.

Έχοντας εκπαιδεύσει τα μηχανήματα, η ομάδα τα δοκιμάζει σε ένα σύνολο πάνελ που δεν έχουν δει και τους ζητά να προβλέψουν την επόμενη εικόνα ή κομμάτι κειμένου στη σειρά.

Τα αποτελέσματα είναι εντυπωσιακά. Ενώ οι άνθρωποι μπορούν να προβλέψουν σωστά το επόμενο κομμάτι κειμένου ή την επόμενη εικόνα περισσότερο από το 80 τοις εκατό των περιπτώσεων, οι μηχανές δεν πλησιάζουν ποτέ αυτό το επίπεδο ακρίβειας. Καμία από τις αρχιτεκτονικές δεν ξεπερνά τις ανθρώπινες βασικές γραμμές, κάτι που μιλάει για τη δυσκολία κατανόησης των κόμικς, λένε οι Iyyer and co. Τα χαρακτηριστικά εικόνας που προέρχονται από μοντέλα που έχουν εκπαιδευτεί σε φυσικές εικόνες δεν μπορούν να αποτυπώσουν την τεράστια ποικιλία στα καλλιτεχνικά στυλ, και τα κειμενικά μοντέλα παλεύουν με τον πλούτο και την ασάφεια του καθομιλουμένου διαλόγου που εξαρτάται σε μεγάλο βαθμό από οπτικά πλαίσια.

Αυτό δεν προκαλεί έκπληξη, δεδομένης της κοινής λογικής που απαιτείται για να ακολουθήσει κανείς αυτές τις ιστορίες και της πολιτισμικής γνώσης που απαιτείται για την κατανόηση της λογικής της αφήγησης στα κόμικς.

Έτσι, οι άνθρωποι εξακολουθούν να είναι κύριοι αυτού του έργου, τουλάχιστον προς το παρόν.

Αλλά οι μηχανές σίγουρα θα γίνουν καλύτερες καθώς μαθαίνουν τις κοινωνικές δεξιότητες και τις δεξιότητες εξαγωγής συμπερασμάτων που πιστεύουμε ότι μας κάνουν ανθρώπους.

Και αυτό δημιουργεί μια ενδιαφέρουσα πιθανότητα. Μηχανές τεχνητής νοημοσύνης κέρδισαν ανθρώπους στο σκάκι, Διακινδύνευση! , Go, και πολλές άλλες εργασίες. Ίσως η επόμενη πρόκληση να είναι να κατανοήσουν τα κόμικς καλύτερα από τους ανθρώπους και ίσως ακόμη και να δημιουργήσουν αφηγήσεις με αυτόν τον τρόπο. Αυτό θα έβαζε το Google DeepMind ή οποιονδήποτε από τους ανταγωνιστές του απέναντι στους χαρακτήρες της Marvel ή της DC Comics. Η τέλεια μάχη και σίγουρα αυτή που θα ήταν διασκεδαστική.

Αναφ.: arxiv.org/abs/1611.05118 : The Amazing Mysteries of the Gutter: Drawing Inferences Between Panels in Comic Book Nrratives

κρύβω

Πραγματικές Τεχνολογίες

Κατηγορία

Χωρίς Κατηγοριοποίηση

Τεχνολογία

Βιοτεχνολογία

Τεχνική Πολιτική

Την Αλλαγή Του Κλίματος

Άνθρωποι Και Τεχνολογία

Silicon Valley

Χρήση Υπολογιστή

Περιοδικό Mit News

Τεχνητή Νοημοσύνη

Χώρος

Έξυπνες Πόλεις

Blockchain

Feature Story

Προφίλ Αποφοίτων

Σύνδεση Αποφοίτων

Δυνατότητα Ειδήσεων Mit

1865

Η Θέα Μου

77 Mass Ave

Γνωρίστε Τον Συγγραφέα

Προφίλ Στη Γενναιοδωρία

Βλέπεται Στην Πανεπιστημιούπολη

Επιστολές Αποφοίτων

Νέα

Εκλογές 2020

Με Ευρετήριο

Κάτω Από Τον Θόλο

Πυροσβεστική Μάνικα

Άπειρες Ιστορίες

Πανδημικό Τεχνολογικό Έργο

Από Τον Πρόεδρο

Θέμα Εξώφυλλου

Φωτογραφίες

Συνιστάται