Κατανόηση log_prob για την κανονική κατανομή στο pytorch

ψήφοι
1

Είμαι στιγμή προσπαθεί να λύσει Εκκρεμές-v0 από το περιβάλλον γυμναστήριο openAi το οποίο έχει μια συνεχή χώρο δράσης. Ως εκ τούτου, θα πρέπει να χρησιμοποιήσετε μια κανονική κατανομή για να δοκιμάσετε τις πράξεις μου. Αυτό που δεν καταλαβαίνω είναι η διάσταση της log_prob όταν το χρησιμοποιείτε:

εισάγετε

Ι αναμενόταν τανυστής του μεγέθους 2 (ένα για κάθε log_prob δράσεις) αλλά εξάγει ένα tensor του μεγέθους (2,2).

Ωστόσο, όταν χρησιμοποιείται ένας Κατηγορικά διανομής για διακριτές περιβάλλον ο log_prob έχει το αναμενόμενο μέγεθος. Γιατί είναι η log_prob για την κανονική κατανομή ενός διαφορετικού μεγέθους;

Δημοσιεύθηκε 19/03/2020 στις 21:23
πηγή χρήστη
Σε άλλες γλώσσες...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more