Χρειάζεστε βοήθεια κατανόηση της εξόδου από την οικοδόμηση ενός δένδρου ταξινόμησης

ψήφοι
0

Είμαι εξάσκηση κάνει τα δέντρα αποφάσεων με τη χρήση του πακέτου που ονομάζεται «δέντρο».

#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree

Η έξοδος από αυτό είναι:

node), split, n, deviance, yval, (yprob)
      * denotes terminal node

1) root 800 1073.00 CH ( 0.60625 0.39375 )  
   2) LoyalCH < 0.508643 353  415.10 MM ( 0.27479 0.72521 )  
     4) LoyalCH < 0.277977 161  112.80 MM ( 0.11180 0.88820 )  
       8) LoyalCH < 0.035047 55    0.00 MM ( 0.00000 1.00000 ) *
       9) LoyalCH > 0.035047 106   96.58 MM ( 0.16981 0.83019 ) *
     5) LoyalCH > 0.277977 192  260.10 MM ( 0.41146 0.58854 )  
      10) PriceDiff < 0.195 84   84.62 MM ( 0.20238 0.79762 )  
        20) SpecialCH < 0.5 67   49.01 MM ( 0.11940 0.88060 ) *
        21) SpecialCH > 0.5 17   23.51 CH ( 0.52941 0.47059 ) *
      11) PriceDiff > 0.195 108  147.30 CH ( 0.57407 0.42593 ) *
   3) LoyalCH > 0.508643 447  348.80 CH ( 0.86801 0.13199 )  
     6) LoyalCH < 0.764572 189  214.20 CH ( 0.74603 0.25397 )  
      12) PriceDiff < -0.165 33   43.26 MM ( 0.36364 0.63636 ) *
      13) PriceDiff > -0.165 156  143.70 CH ( 0.82692 0.17308 )  
        26) PriceDiff < 0.265 86   99.88 CH ( 0.73256 0.26744 ) *
        27) PriceDiff > 0.265 70   30.66 CH ( 0.94286 0.05714 ) *
     7) LoyalCH > 0.764572 258   90.94 CH ( 0.95736 0.04264 ) *

Καταλαβαίνω ότι οι σειρές με αστερίσκους στο δέντρο είναι τερματικούς κόμβους. Είμαι αγωνίζονται να ακολουθήσουν τα άλλα πράγματα. Χρησιμοποιώντας σειρά 7 ως παράδειγμα, ξέρω ότι «LoyalCH> 0.764572» είναι όπου οι διασπάσεις δέντρο αποφάσεων και τα υποκαταστήματα στο τερματικό κόμβο, και CH είναι η ποιοτική αξία του τερματικού κόμβου όπου οι πελάτες είναι μεγαλύτερο από 76,4572% πιστός στο CH (η δεδομένα είναι προεγκατεστημένο με το πακέτο ISLR, CH είναι ένα εμπορικό σήμα χυμός). Υποθέτω 258 υποτίθεται ότι είναι ο αριθμός των σημείων δεδομένων που περατωθεί σε αυτό το τερματικό κόμβο. Ξέρω ότι 90.94 υποτίθεται για να περιγράψει καλής προσαρμογής στο μοντέλο, αλλά είμαι λίγο σύγχυση σχετικά με την έννοια της απόκλισης. Είναι μια τιμή υψηλότερη της απόκλισης κακό; Μήπως 90.94 δείχνουν ότι πρόκειται για μια ασθενέστερη ταιριάζει; Όσο για τους αριθμούς σε παρένθεση, είμαι εγώ να καταλάβουμε ότι 0,95736 είναι η πιθανότητα κάθε σημείο δεδομένων σε αυτόν τον κλάδο επιλογή CH;

Δημοσιεύθηκε 19/03/2020 στις 22:06
πηγή χρήστη
Σε άλλες γλώσσες...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more