Το EITC/AI/ARL Advanced Reinforcement Learning είναι το ευρωπαϊκό πρόγραμμα πιστοποίησης πληροφορικής σχετικά με την προσέγγιση της DeepMind για την ενισχυτική μάθηση στην τεχνητή νοημοσύνη.
Το πρόγραμμα σπουδών του EITC/AI/ARL Advanced Reinforcement Learning εστιάζει σε θεωρητικές πτυχές και πρακτικές δεξιότητες σε τεχνικές ενισχυτικής μάθησης από την οπτική γωνία του DeepMind που οργανώνεται στην ακόλουθη δομή, περιλαμβάνοντας ολοκληρωμένο διδακτικό περιεχόμενο βίντεο ως αναφορά για αυτήν την Πιστοποίηση EITC.
Το Reinforcement learning (RL) είναι ένας τομέας της μηχανικής μάθησης που ασχολείται με τον τρόπο με τον οποίο οι ευφυείς πράκτορες πρέπει να κάνουν ενέργειες σε ένα περιβάλλον προκειμένου να μεγιστοποιήσουν την έννοια της σωρευτικής ανταμοιβής. Η ενίσχυση της μάθησης είναι ένα από τα τρία βασικά πρότυπα μηχανικής μάθησης, παράλληλα με την εποπτευόμενη μάθηση και τη μη εποπτευόμενη μάθηση.
Η εκμάθηση ενίσχυσης διαφέρει από την εποπτευόμενη μάθηση στο ότι δεν χρειάζεται να παρουσιάζονται ζεύγη εισόδου/εξόδου με ετικέτα και να μην χρειάζεται να διορθωθούν ρητά οι βέλτιστες ενέργειες. Αντίθετα, η εστίαση είναι στην εξεύρεση ισορροπίας μεταξύ εξερεύνησης (μη διαχωρισμένου εδάφους) και εκμετάλλευσης (της τρέχουσας γνώσης).
Το περιβάλλον δηλώνεται συνήθως με τη μορφή μιας διαδικασίας απόφασης Markov (MDP), επειδή πολλοί αλγόριθμοι εκμάθησης ενίσχυσης για αυτό το πλαίσιο χρησιμοποιούν δυναμικές τεχνικές προγραμματισμού. Η κύρια διαφορά μεταξύ των κλασικών δυναμικών μεθόδων προγραμματισμού και των αλγορίθμων μάθησης ενίσχυσης είναι ότι οι τελευταίοι δεν αναλαμβάνουν γνώση ενός ακριβούς μαθηματικού μοντέλου του MDP και στοχεύουν μεγάλα MDPs όπου οι ακριβείς μέθοδοι καθίστανται ανέφικτες.
Λόγω της γενικότητάς της, η εκμάθηση ενίσχυσης μελετάται σε πολλούς κλάδους, όπως θεωρία παιχνιδιών, θεωρία ελέγχου, έρευνα λειτουργίας, θεωρία πληροφοριών, βελτιστοποίηση βάσει προσομοίωσης, συστήματα πολλαπλών παραγόντων, ευφυΐα σμήνος και στατιστικά. Στη βιβλιογραφία έρευνας και ελέγχου επιχειρήσεων, η εκμάθηση ενίσχυσης ονομάζεται κατά προσέγγιση δυναμικός προγραμματισμός ή νευρο-δυναμικός προγραμματισμός. Τα προβλήματα ενδιαφέροντος για την ενίσχυση της μάθησης έχουν επίσης μελετηθεί στη θεωρία του βέλτιστου ελέγχου, η οποία ασχολείται κυρίως με την ύπαρξη και τον χαρακτηρισμό των βέλτιστων λύσεων, και αλγορίθμων για τον ακριβή υπολογισμό τους, και λιγότερο με τη μάθηση ή την προσέγγιση, ιδίως απουσία ένα μαθηματικό μοντέλο του περιβάλλοντος. Στη θεωρία των οικονομικών και των παιχνιδιών, η εκμάθηση ενίσχυσης μπορεί να χρησιμοποιηθεί για να εξηγήσει πώς μπορεί να προκύψει ισορροπία υπό περιορισμένη λογική.
Η βασική ενίσχυση διαμορφώνεται ως διαδικασία απόφασης Markov (MDP). Στα μαθηματικά, μια διαδικασία απόφασης Markov (MDP) είναι μια διαδικασία στοχαστικού ελέγχου διακριτού χρόνου. Παρέχει ένα μαθηματικό πλαίσιο για τη μοντελοποίηση της λήψης αποφάσεων σε καταστάσεις όπου τα αποτελέσματα είναι εν μέρει τυχαία και εν μέρει υπό τον έλεγχο ενός υπευθύνου λήψης αποφάσεων. Τα MDP είναι χρήσιμα για τη μελέτη προβλημάτων βελτιστοποίησης που επιλύονται μέσω δυναμικού προγραμματισμού. Οι MDP ήταν γνωστοί τουλάχιστον ήδη από τη δεκαετία του 1950. Ένα βασικό σώμα έρευνας σχετικά με τις διαδικασίες λήψης αποφάσεων του Markov προέκυψε από το βιβλίο του 1960 του Ronald Howard, Dynamic Programming και Markov Processes. Χρησιμοποιούνται σε πολλούς κλάδους, όπως η ρομποτική, ο αυτόματος έλεγχος, τα οικονομικά και η κατασκευή. Το όνομα των MDP προέρχεται από τον Ρώσο μαθηματικό Andrey Markov καθώς αποτελούν επέκταση των αλυσίδων Markov.
Σε κάθε βήμα, η διαδικασία βρίσκεται σε κάποια κατάσταση S, και ο υπεύθυνος λήψης αποφάσεων μπορεί να επιλέξει οποιαδήποτε ενέργεια α είναι διαθέσιμη στην κατάσταση S. Η διαδικασία αποκρίνεται στο επόμενο βήμα βήμα μεταβαίνοντας τυχαία σε μια νέα κατάσταση S ', και δίνοντας το λήψη αποφάσεων μια αντίστοιχη ανταμοιβή Ra (S, S ').
Η πιθανότητα η διαδικασία να μετακινηθεί στη νέα της κατάσταση S 'επηρεάζεται από την επιλεγμένη ενέργεια α. Συγκεκριμένα, δίνεται από τη συνάρτηση μετάβασης κατάστασης Pa (S, S '). Έτσι, η επόμενη κατάσταση S 'εξαρτάται από την τρέχουσα κατάσταση S και τη δράση του υπεύθυνου λήψης αποφάσεων α. Ωστόσο, δεδομένου του S και a, είναι υπό όρους ανεξάρτητο από όλες τις προηγούμενες καταστάσεις και ενέργειες. Με άλλα λόγια, οι κρατικές μεταβάσεις ενός MDP ικανοποιούν την ιδιοκτησία Markov.
Οι διαδικασίες λήψης αποφάσεων Markov αποτελούν επέκταση των αλυσίδων Markov. η διαφορά είναι η προσθήκη ενεργειών (επιτρέποντας την επιλογή) και ανταμοιβών (δίνοντας κίνητρα). Αντίθετα, εάν υπάρχει μόνο μία ενέργεια για κάθε κατάσταση (π.χ. "αναμονή") και όλες οι ανταμοιβές είναι ίδιες (π.χ. "μηδέν"), μια διαδικασία απόφασης Markov μειώνεται σε μια αλυσίδα Markov.
Ένας ενισχυτικός πράκτορας μάθησης αλληλεπιδρά με το περιβάλλον του σε ξεχωριστά χρονικά βήματα. Κάθε φορά t, ο πράκτορας λαμβάνει την τρέχουσα κατάσταση S (t) και επιβράβευση r (t). Στη συνέχεια επιλέγει μια ενέργεια a (t) από το σύνολο των διαθέσιμων ενεργειών, η οποία στη συνέχεια αποστέλλεται στο περιβάλλον. Το περιβάλλον μετακινείται σε μια νέα κατάσταση S (t + 1) και καθορίζεται η επιβράβευση r (t + 1) που σχετίζεται με τη μετάβαση. Ο στόχος ενός παράγοντα εκμάθησης ενίσχυσης είναι να μάθει μια πολιτική που μεγιστοποιεί την αναμενόμενη αθροιστική ανταμοιβή.
Η διατύπωση του προβλήματος ως MDP προϋποθέτει ότι ο πράκτορας παρακολουθεί άμεσα την τρέχουσα περιβαλλοντική κατάσταση. Σε αυτήν την περίπτωση το πρόβλημα λέγεται ότι έχει πλήρη παρατηρησιμότητα. Εάν ο πράκτορας έχει πρόσβαση μόνο σε ένα υποσύνολο καταστάσεων, ή εάν οι παρατηρούμενες καταστάσεις είναι κατεστραμμένες από θόρυβο, ο πράκτορας λέγεται ότι έχει μερική παρατηρησιμότητα και επισήμως το πρόβλημα πρέπει να διατυπωθεί ως μια διαδικασία μερικής παρατηρήσιμης απόφασης Markov. Και στις δύο περιπτώσεις, το σύνολο των ενεργειών που διατίθενται στον πράκτορα μπορεί να περιοριστεί. Για παράδειγμα, η κατάσταση ενός υπολοίπου λογαριασμού θα μπορούσε να περιοριστεί ως θετική. Εάν η τρέχουσα τιμή της κατάστασης είναι 3 και η μετάβαση κατάστασης επιχειρήσει να μειώσει την τιμή κατά 4, η μετάβαση δεν θα επιτρέπεται.
Όταν η απόδοση του πράκτορα συγκρίνεται με εκείνη ενός πράκτορα που λειτουργεί βέλτιστα, η διαφορά στην απόδοση δημιουργεί την έννοια της λύπης. Προκειμένου να ενεργήσει πλησίον, ο πράκτορας πρέπει να αιτιολογήσει τις μακροπρόθεσμες συνέπειες των ενεργειών του (δηλαδή, να μεγιστοποιήσει το μελλοντικό εισόδημά του), αν και η άμεση ανταμοιβή που σχετίζεται με αυτό μπορεί να είναι αρνητική.
Έτσι, η ενίσχυση της μάθησης είναι ιδιαίτερα κατάλληλη για προβλήματα που περιλαμβάνουν μια μακροπρόθεσμη έναντι βραχυπρόθεσμης ανταμοιβής. Έχει εφαρμοστεί με επιτυχία σε διάφορα προβλήματα, όπως έλεγχος ρομπότ, προγραμματισμός ανελκυστήρα, τηλεπικοινωνίες, τάβλι, πούλια και Go (AlphaGo).
Δύο στοιχεία κάνουν την ενίσχυση της μάθησης ισχυρή: τη χρήση δειγμάτων για τη βελτιστοποίηση της απόδοσης και τη χρήση της προσέγγισης της λειτουργίας για την αντιμετώπιση μεγάλων περιβαλλόντων. Χάρη σε αυτά τα δύο βασικά στοιχεία, η ενίσχυση της μάθησης μπορεί να χρησιμοποιηθεί σε μεγάλα περιβάλλοντα στις ακόλουθες περιπτώσεις:
- Είναι γνωστό ένα μοντέλο περιβάλλοντος, αλλά δεν υπάρχει διαθέσιμη αναλυτική λύση.
- Δίνεται μόνο ένα μοντέλο προσομοίωσης του περιβάλλοντος (το αντικείμενο της βελτιστοποίησης βάσει προσομοίωσης).
- Ο μόνος τρόπος συλλογής πληροφοριών σχετικά με το περιβάλλον είναι να αλληλεπιδράσετε με αυτό.
Τα δύο πρώτα από αυτά τα προβλήματα θα μπορούσαν να θεωρηθούν προβλήματα σχεδιασμού (δεδομένου ότι υπάρχει κάποια μορφή μοντέλου), ενώ το τελευταίο θα μπορούσε να θεωρηθεί πραγματικό μαθησιακό πρόβλημα. Ωστόσο, η ενίσχυση της μάθησης μετατρέπει και τα δύο προβλήματα σχεδιασμού σε προβλήματα μηχανικής μάθησης.
Η αντιστάθμιση της εξερεύνησης έναντι της εκμετάλλευσης έχει μελετηθεί πιο διεξοδικά μέσω του προβλήματος των πολλών οπλισμένων ληστών και για τους MDP πεπερασμένων κρατικών διαστημάτων στο Burnetas και στον Katehakis (1997).
Η εκμάθηση ενίσχυσης απαιτεί έξυπνους μηχανισμούς εξερεύνησης. η τυχαία επιλογή ενεργειών, χωρίς αναφορά σε εκτιμώμενη κατανομή πιθανότητας, δείχνει κακή απόδοση. Η περίπτωση (μικρών) πεπερασμένων διαδικασιών απόφασης Markov είναι σχετικά καλά κατανοητή. Ωστόσο, λόγω της έλλειψης αλγορίθμων που κλιμακώνονται καλά με τον αριθμό των καταστάσεων (ή κλίμακα σε προβλήματα με άπειρους χώρους κατάστασης), οι απλές μέθοδοι εξερεύνησης είναι οι πιο πρακτικές.
Ακόμα κι αν το ζήτημα της εξερεύνησης αγνοηθεί και ακόμη και αν το κράτος ήταν παρατηρήσιμο, το πρόβλημα παραμένει να χρησιμοποιήσουμε την εμπειρία του παρελθόντος για να μάθουμε ποιες ενέργειες οδηγούν σε υψηλότερες σωρευτικές ανταμοιβές.
Για να εξοικειωθείτε λεπτομερώς με το πρόγραμμα σπουδών πιστοποίησης, μπορείτε να επεκτείνετε και να αναλύσετε τον παρακάτω πίνακα.
Το Πρόγραμμα Σπουδών Πιστοποίησης EITC/AI/ARL Advanced Reinforcement Learning Certification αναφέρεται σε διδακτικό υλικό ανοιχτής πρόσβασης σε μορφή βίντεο. Η μαθησιακή διαδικασία χωρίζεται σε μια δομή βήμα προς βήμα (προγράμματα -> μαθήματα -> θέματα) που καλύπτει σχετικά μέρη του προγράμματος σπουδών. Παρέχονται επίσης απεριόριστες συμβουλές με ειδικούς στον τομέα.
Για λεπτομέρειες σχετικά με τη διαδικασία πιστοποίησης ελέγξτε Πως δουλεύει.
Πόροι αναφοράς του προγράμματος σπουδών
Έλεγχος ανθρώπινου επιπέδου μέσω της δημοσίευσης Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Σεμινάριο ανοιχτής πρόσβασης στη μάθηση βαθιάς ενίσχυσης στο UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
Το RL εφαρμόστηκε σε πρόβλημα ληστών K-armbed από το Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Κατεβάστε το πλήρες προπαρασκευαστικό υλικό αυτομάθησης εκτός σύνδεσης για το πρόγραμμα EITC/AI/ARL Advanced Reinforcement Learning σε αρχείο PDF
Προπαρασκευαστικά υλικά EITC/AI/ARL – στάνταρ έκδοση
Προπαρασκευαστικό υλικό EITC/AI/ARL – εκτεταμένη έκδοση με ερωτήσεις αναθεώρησης