Στατιστική δοκιμή για χρονοσειρές όπου προκύπτει το αποτέλεσμα - python

ψήφοι
0

Ζητώ βοήθεια σχετικά με τον έλεγχο παλινδρόμησης. Έχω μια συνεχή χρονική σειρά που κυμαίνεται μεταξύ θετικών και αρνητικών ακέραιων αριθμών. Έχω επίσης γεγονότα που συμβαίνουν καθ 'όλη τη διάρκεια αυτής της σειράς σε φαινομενικά τυχαία χρονικά σημεία. Ουσιαστικά, όταν συμβαίνει ένα συμβάν, αρπάζω τον αντίστοιχο ακέραιο. Τότε θέλω να δοκιμάσω αν αυτός ο ακέραιος επηρεάζει καθόλου το συμβάν. Όπως στο, υπάρχουν περισσότεροι θετικοί / αρνητικοί ακέραιοι.

Αρχικά πίστευα ότι η λογιστική παλινδρόμηση με τον θετικό / αρνητικό αριθμό, αλλά αυτό θα απαιτούσε τουλάχιστον δύο ξεχωριστές ομάδες. Ενώ, έχω μόνο πληροφορίες για γεγονότα που έχουν συμβεί. Δεν μπορώ πραγματικά να συμπεριλάβω αυτό το ποσό των γεγονότων που δεν συμβαίνουν καθώς είναι κάπως συνεχές και τυχαίο. Ο αριθμός των φορών που δεν συμβαίνει ένα συμβάν είναι αδύνατο να μετρηθεί.

Έτσι, η ξεχωριστή μου ομάδα είναι αληθινή με μια έννοια, καθώς δεν έχω αποτελέσματα από κάτι που δεν συνέβη. Αυτό που προσπαθώ να ταξινομήσω είναι:

Όταν συμβεί ένα αποτέλεσμα, επηρεάζει ο θετικός ή αρνητικός ακέραιος αριθμός αυτό το αποτέλεσμα .

Δημοσιεύθηκε 11/05/2020 στις 04:28
πηγή χρήστη
Σε άλλες γλώσσες...                            


3 απαντήσεις

ψήφοι
0

Αν και το ερώτημα είναι αρκετά δύσκολο να γίνει κατανοητό μετά την πρώτη παράγραφο. Επιτρέψτε μου να βοηθήσω από όσα μπορούσα να καταλάβω από αυτήν την ερώτηση.

Υποθέτοντας ότι θέλετε να καταλάβετε εάν υπάρχει σχέση μεταξύ των συμβάντων που συμβαίνουν και των ακέραιων στα δεδομένα.

1η προσέγγιση: Σχεδιάστε τα δεδομένα σε μια 2η κλίμακα και ελέγξτε οπτικά εάν υπάρχει σχέση μεταξύ των δεδομένων. 2η προσέγγιση: κάντε τα δεδομένα από τα συμβάντα συνεχή και αφαιρέστε τα συμβάντα από άλλα δεδομένα και χρησιμοποιώντας το κυλιόμενο παράθυρο εξομαλύνετε τα δεδομένα και, στη συνέχεια, συγκρίνετε και τις δύο τάσεις.

Η παραπάνω προσέγγιση λειτουργεί καλά μόνο αν κατανοώ σωστά το πρόβλημά σας. Υπάρχει επίσης ένα ακόμη πράγμα γνωστό ως προκατάληψη επιβίωσης. Ενδέχεται να λείπουν δεδομένα, ελέγξτε επίσης αυτό το τμήμα.

Απαντήθηκε 18/05/2020 στις 13:52
πηγή χρήστη

ψήφοι
0

Φαίνεται ότι ενδιαφέρεστε να προσδιορίσετε τις υποκείμενες δυνάμεις που παράγουν μια δεδομένη ροή δεδομένων. Τέτοια μαθηματικά μοντέλα ονομάζονται Markov Models. Ένα κλασικό παράδειγμα είναι η μελέτη του κειμένου.

Για παράδειγμα, εάν εκτελέσω έναν αλγόριθμο Hidden Markov Model σε μια παράγραφο αγγλικού κειμένου, τότε θα διαπιστώσω ότι υπάρχουν δύο κατηγορίες οδήγησης που καθορίζουν τις πιθανότητες των χαρακτήρων που εμφανίζονται στην παράγραφο. Αυτές οι κατηγορίες μπορούν να χωριστούν σε δύο ομάδες, "aeiouy" και "bcdfghjklmnpqrstvwxz". Ούτε τα μαθηματικά ούτε το HMM "ήξεραν" τι να καλέσουν αυτές τις κατηγορίες, αλλά είναι αυτά που συγκρίνονται στατιστικά με την ανάλυση μιας παραγράφου κειμένου. Μπορούμε να ονομάσουμε αυτές τις κατηγορίες "φωνήεντα" και "σύμφωνα". Έτσι, ναι, τα φωνήεντα και τα σύμφωνα δεν είναι μόνο κατηγορίες 1ης τάξης για μάθηση, ακολουθούν από το πώς γράφεται το κείμενο στατιστικά. Είναι ενδιαφέρον ότι ένας "χώρος" συμπεριφέρεται περισσότερο σαν φωνήεν από ένα σύμφωνο. Δεν έδωσα τις πιθανότητες για το παραπάνω παράδειγμα, αλλά είναι ενδιαφέρον να σημειωθεί ότι το "y" καταλήγει με πιθανότητα περίπου 0,6 φωνήεντος και 0,4 συμφώνου. που σημαίνει ότι το "y" είναι το πιο σύμφωνο φωνήεν φωνής στατιστικά.

Ένα εξαιρετικό έγγραφο είναι το https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf που αναλύει τις βασικές ιδέες αυτού του είδους της ανάλυσης χρονοσειρών και παρέχει ακόμη και κάποιο sudo-code για αναφορά.

Δεν ξέρω πολλά για τα δεδομένα με τα οποία ασχολείστε και δεν ξέρω αν οι έννοιες "θετικό" και "αρνητικό" παίζουν καθοριστικό παράγοντα στα δεδομένα που βλέπετε, αλλά αν εκτελέσατε ένα HMM στο τα δεδομένα σας και βρήκατε τις δύο ομάδες να είναι η συλλογή θετικών αριθμών και η συλλογή αρνητικών αριθμών, τότε η απάντησή σας θα επιβεβαιωθεί, ναι, οι πιο σημαντικές δύο κατηγορίες που οδηγούν τα δεδομένα σας είναι οι έννοιες των θετικών και αρνητικών. Εάν δεν χωρίζονται ομοιόμορφα, τότε η απάντησή σας είναι ότι αυτές οι έννοιες δεν επηρεάζουν σημαντικά την οδήγηση των δεδομένων. Ακόμα περισσότερο, ο αλγόριθμος θα τελειώσει με αρκετές πτυχές πιθανότητας που θα σας δείχνουν πόσο κάθε ακέραιος αριθμός των δεδομένων σας επηρεάζεται από κάθε κατηγορία, επομένως θα έχετε πολύ μεγαλύτερη εικόνα για τη συμπεριφορά των δεδομένων χρονοσειρών σας.

Απαντήθηκε 19/05/2020 στις 07:59
πηγή χρήστη

ψήφοι
0

Ίσως παρανοώ το πρόβλημά σας, αλλά δεν πιστεύω ότι μπορείτε να διαμορφώσετε οποιοδήποτε είδος ουσιαστικής παλινδρόμησης χωρίς περισσότερες πληροφορίες.

Η παλινδρόμηση χρησιμοποιείται συνήθως για την εύρεση σχέσης μεταξύ δύο ή περισσότερων μεταβλητών, ωστόσο φαίνεται ότι έχετε μόνο μία μεταβλητή (εάν είναι θετικές ή αρνητικές) και μία σταθερά (το αποτέλεσμα είναι πάντα αληθές στα δεδομένα). Ίσως θα μπορούσατε να κάνετε κάποια στατιστικά στοιχεία σχετικά με την κατανομή των αριθμών (μέσος όρος, διάμεσος, τυπική απόκλιση), αλλά δεν είμαι σίγουρος πώς μπορεί να κάνετε παλινδρόμηση. https://en.wikipedia.org/wiki/Regression_analysis

Ίσως θελήσετε να σκεφτείτε ότι μπορεί να υπάρχει κάποια ισχυρή προκατάληψη επιβίωσης εάν λείπουν ένα μεγάλο κομμάτι των δεδομένων σας. https://en.wikipedia.org/wiki/Survivorship_bias

Ελπίζω ότι αυτό είναι τουλάχιστον λίγο χρήσιμο για να σας οδηγήσει στη σωστή κατεύθυνση

Απαντήθηκε 11/05/2020 στις 04:53
πηγή χρήστη

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more