Ερευνητές του CSAIL (Computer Science and Artificial Intelligence Laboratory) ανέπτυξαν έναν αλγόριθμο deep learning ο οποίος, όταν λαμβάνει μια εικόνα (σκηνή) μπορεί να δημιουργεί σύντομα βίντεο τα οποία παρουσιάζουν το μέλλον (τις επόμενες στιγμές) της εικόνας- σκηνής. Ο άνθρωπος έχει τη δυνατότητα με ελάχιστη σκέψη να αντιλαμβάνεται το πώς μπορεί να εξελιχθεί μια εικόνα που έχει μπροστά του, πώς θα αλληλεπιδράσουν μεταξύ τους τα αντικείμενα που βλέπει κλπ. Ωστόσο, οι υπολογιστές δυσκολεύονται σε αυτό. Ο συγκεκριμένος αλγόριθμος «εκπαιδεύτηκε» από δύο εκατομμύρια βίντεο, από ένα χρονικό διάστημα ενός έτους, και δημιούργησε βίντεο τα οποία άνθρωποι που έλεγξαν τις επιδόσεις του έκριναν ιδιαίτερα ρεαλιστικά. Σύμφωνα με τους ερευνητές, μελλοντικές εκδόσεις θα μπορούσαν να χρησιμοποιηθούν σε μια μεγάλη σειρά εφαρμογών, από τεχνικές και τακτικές του χώρου της ασφάλειας μέχρι τα αυτόνομα οχήματα κ.α. Σύμφωνα με τον Καρλ Βόντρικ, διδακτορικό φοιτητή και πρώτο συντελεστή της σχετικής μελέτης, ο αλγόριθμος μπορεί επίσης να βοηθήσει τις μηχανές να αναγνωρίζουν τις δραστηριότητες των ανθρώπων χωρίς ανθρώπινη βοήθεια. «Τα βίντεο αυτά μας δείχνουν τι νομίζουν οι υπολογιστές πως μπορεί να συμβεί σε μια σκηνή. Αν μπορείς να προβλέψεις το μέλλον, πρέπει να έχεις καταλάβει κάτι για το παρόν» λέει χαρακτηριστικά.
Πολλοί ερευνητές έχουν ασχοληθεί με παρόμοια θέματα στο computer vision, όπως ο καθηγητής Μπιλ Φρίμαν του ΜΙΤ, η δουλειά του οποίου πάνω στα «visual dynamics» επίσης δημιουργεί εικόνες του μέλλοντος σε μια σκηνή. Αλλά τη στιγμή που το μοντέλο του Φρίμαν επικεντρώνεται στην «εξέλιξη» - «επέκταση» βίντεο στο μέλλον, το νέο μοντέλο μπορεί να δημιουργέι εντελώς νέα βίντεο. Τα παλαιότερα συστήματα έφτιαχναν σκηνές frame ανά frame, κάτι που άφηνε μεγάλο περιθώριο λάθους. Αντίθετα, ο νέος αυτός αλγόριθμος επικεντρώνεται στην επεξεργασία μιας ολόκληρης σκηνής, παράγοντας 32 frames ανά δευτερόλεπτο, από το μηδέν. Αυτό έχει το μειονέκτημα ότι τα πράγματα γίνονται πιο πολύπλοκα όσο πιο μεγάλης διάρκειας είναι το βίντεο- ωστόσο αυτή η πολυπλοκότητα με τη σειρά της επιτρέπει πιο ακριβείς προβλέψεις. Για τη δημιουργία πολλαπλών frames, οι ερευνητές «δίδαξαν» στο μοντέλο να δημιουργεί το background χωριστά από την εικόνα που βρίσκεται στο προσκήνιο, και μετά να τοποθετεί τα αντικείμενα επί σκηνής, για να μπορεί το σύστημα να κατανοεί ποια είναι τα αντικείμενα που κινούνται και ποια όχι. Η ομάδα χρησιμοποίησε μια μέθοδο deep learning ονόματι «adversarial learning», που περιλαμβάνει την «εκπαίδευση» δύο διαφορετικών, ανταγωνιστικών δικτύων νευρώνων: Το ένα δημιουργεί βίντεο, και το άλλο διαχωρίζει τα πραγματικά από τα παραγόμενα- τεχνητά βίντεο. Με το πέρασμα του χρόνου, ο «παραγωγός» μαθαίνει να «ξεγελά» τον «κριτή».
Ο Βόντρικ παραδέχεται πως το μοντέλο δεν έχει ακόμα κάποιες βασικές αρχές κοινής λογικής- πχ αρκετά συχνά δεν καταλαβαίνει ότι αντικείμενα που κινούνται μπορεί να παραμένουν σε μια σκηνή (πχ ένα τρένο που περνάει), ενώ επίσης τείνει να απεικονίζει ανθρώπους και πράγματα σε μεγαλύτερα μεγέθη από ό,τι στην πραγματικότητα. Ακόμη, η διάρκεια των βίντεο είναι ακόμα αρκετά μικρή (1,5 δευτερόλεπτα), ωστόσο οι ερευνητές ελπίζουν πως σύντομα θα είναι δυνατή η παραγωγή πιο μεγάλων βίντεο.
ΑΜΠΕ
Πολλοί ερευνητές έχουν ασχοληθεί με παρόμοια θέματα στο computer vision, όπως ο καθηγητής Μπιλ Φρίμαν του ΜΙΤ, η δουλειά του οποίου πάνω στα «visual dynamics» επίσης δημιουργεί εικόνες του μέλλοντος σε μια σκηνή. Αλλά τη στιγμή που το μοντέλο του Φρίμαν επικεντρώνεται στην «εξέλιξη» - «επέκταση» βίντεο στο μέλλον, το νέο μοντέλο μπορεί να δημιουργέι εντελώς νέα βίντεο. Τα παλαιότερα συστήματα έφτιαχναν σκηνές frame ανά frame, κάτι που άφηνε μεγάλο περιθώριο λάθους. Αντίθετα, ο νέος αυτός αλγόριθμος επικεντρώνεται στην επεξεργασία μιας ολόκληρης σκηνής, παράγοντας 32 frames ανά δευτερόλεπτο, από το μηδέν. Αυτό έχει το μειονέκτημα ότι τα πράγματα γίνονται πιο πολύπλοκα όσο πιο μεγάλης διάρκειας είναι το βίντεο- ωστόσο αυτή η πολυπλοκότητα με τη σειρά της επιτρέπει πιο ακριβείς προβλέψεις. Για τη δημιουργία πολλαπλών frames, οι ερευνητές «δίδαξαν» στο μοντέλο να δημιουργεί το background χωριστά από την εικόνα που βρίσκεται στο προσκήνιο, και μετά να τοποθετεί τα αντικείμενα επί σκηνής, για να μπορεί το σύστημα να κατανοεί ποια είναι τα αντικείμενα που κινούνται και ποια όχι. Η ομάδα χρησιμοποίησε μια μέθοδο deep learning ονόματι «adversarial learning», που περιλαμβάνει την «εκπαίδευση» δύο διαφορετικών, ανταγωνιστικών δικτύων νευρώνων: Το ένα δημιουργεί βίντεο, και το άλλο διαχωρίζει τα πραγματικά από τα παραγόμενα- τεχνητά βίντεο. Με το πέρασμα του χρόνου, ο «παραγωγός» μαθαίνει να «ξεγελά» τον «κριτή».
Ο Βόντρικ παραδέχεται πως το μοντέλο δεν έχει ακόμα κάποιες βασικές αρχές κοινής λογικής- πχ αρκετά συχνά δεν καταλαβαίνει ότι αντικείμενα που κινούνται μπορεί να παραμένουν σε μια σκηνή (πχ ένα τρένο που περνάει), ενώ επίσης τείνει να απεικονίζει ανθρώπους και πράγματα σε μεγαλύτερα μεγέθη από ό,τι στην πραγματικότητα. Ακόμη, η διάρκεια των βίντεο είναι ακόμα αρκετά μικρή (1,5 δευτερόλεπτα), ωστόσο οι ερευνητές ελπίζουν πως σύντομα θα είναι δυνατή η παραγωγή πιο μεγάλων βίντεο.
ΑΜΠΕ
No comments :
Post a Comment