Ένα πρόβλημα με το σύστημα σας είναι ότι οι επαναλαμβανόμενες γραμμές θα έχουν μια επαναλαμβανόμενη κατακερματισμού? ποτέ δεν θα μπορούσε να προσδιορίσει πότε ένα από αυτά τα γραμμών προστεθούν ή να διαγραφούν
Πολύ καλό σημείο, αλλά δεν είναι ένα ζήτημα. Μια επαναλαμβανόμενη γραμμή είναι ένα αντίγραφο και όλα τα αντίγραφα διαγράφονται στο επόμενο στάδιο της επεξεργασίας. Έτσι, ναι έχετε δίκιο, αλλά αυτό δεν είναι ένα θέμα.
σύνδεσμο «diff» μου παίρνει σε μια σελίδα με μια περιγραφή του τι υποθέτω ότι είναι μια εφαρμογή; Δεν υπάρχει καμία σύνδεση λήψης, δεν υπάρχει καμία κώδικα σε οποιαδήποτε γλώσσα ... Τι είμαι εγώ που λείπει εδώ;
Μερικοί από εσάς έχετε μιλήσει για το επίπεδο byte διακριτότητα. Αυτό δεν είναι απαραίτητη. μόνο το επίπεδο της γραμμής διακριτότητας είναι απαραίτητη, διότι αν μη τι άλλο στη γραμμή έχει αλλάξει, ολόκληρη η γραμμή (εγγραφή) πρέπει να υποβληθούν σε επανεπεξεργασία becasue οποιαδήποτε αλλαγή στο εσωτερικό της γραμμής επηρεάζει το σύνολο της γραμμής.
Γι 'αυτό και σύγκριση γραμμές περίπου 1.000 χαρακτήρες (όχι δυαδικό), σε δύο αρχεία (σημερινό στιγμιότυπο και χθες στιγμιότυπο), που είναι το καθένα γραμμές 1m περίπου.
Έτσι, με τη χρήση ενός ασφαλούς hash όπως SHA256 (MD5 έχει συγκρούσεις και είναι αργή σε σύγκριση) που μπορεί να επεξεργαστεί περίπου 30MB / sec για HO φορητό υπολογιστή μου. Ο διακομιστής φυσικά θα μασάτε μέσα από αυτό πολύ πιο γρήγορα.
Έτσι, αν το αρχείο είναι arond 1GB, στη συνέχεια, κάνοντας όλες τις hases διαρκεί περίπου 33sec, και την ανάγνωση του αρχείου 1Gb χρησιμοποιώντας τα παράθυρα της μνήμης σελίδα διαρκεί περίπου 30 δευτερόλεπτα. δεν τρομακτική
Τώρα έχουμε δύο σειρές hashs που εκπροσωπούν τις γραμμές σε κάθε αρχείο. Αν τα ταξινομήσετε, μπορούμε τώρα να χρησιμοποιήσετε μια δυαδική αναζήτηση, έτσι ώστε να επαναλάβει το δρόμο μας μέσα από τα νέα αρχεία hashs ψάχνει για έναν αγώνα στα παλιά αρχεία hashs. Αν εμείς δεν το βρείτε, ότι η γραμμή προστίθεται στο αρχείο αλλαγές.
Να θυμάστε ότι το βιβλίο των γραμμών (κληρονομιά της βάσης δεδομένων) είναι άγνωστη σε κάθε πτυχή. Δεν υπάρχει καμία εγγύηση της τάξης των γραμμών, τη θέση των αλλαγών, το είδος των αλλαγών.
Οι προτάσεις της ανάγνωσης εμπρόσθια σελίδα προς σελίδα είναι καλή, αλλά υποθέτει ότι τα δύο αρχεία είναι σε SMAE ώστε μέχρι μέχρι την πρώτη αλλαγή. Αυτό δεν μπορεί να γίνει δεκτό. Οι γραμμές (σειρές) θα μπορούσε να είναι σε οποιαδήποτε σειρά. Επίσης, επιλέγοντας ένα αυθαίρετο blocksize παραβιάζει την αναλυτικότητα της γραμμής. Για τους σκοπούς της παρούσας εργασίας, οι γραμμές είναι αμετάβλητος.
Από εκείνη την εξαιρετική σύνδεση στο invrementa φόρτωση: Αρχείο Σύγκριση Capture: Αυτή η μέθοδος είναι επίσης γνωστή ως η διαφορά στιγμιότυπο μέθοδο. Αυτή η μέθοδος λειτουργεί με την κράτηση πριν και μετά από τις εικόνες των αρχείων που απασχολούν στην αποθήκη δεδομένων. Οι Εγγραφές σε σύγκριση με βρει τις αλλαγές και τα κλειδιά ρεκόρ σε σύγκριση με βρείτε ένθετα και διαγραφές. Αυτή η τεχνική είναι πιο κατάλληλο στην περίπτωση των συστημάτων κληρονομιά, λόγω του γεγονότος που προκαλεί συνήθως δεν υπάρχουν και τα αρχεία καταγραφής συναλλαγών είναι είτε ανύπαρκτα είτε σε ιδιόκτητη μορφή. Δεδομένου ότι οι περισσότερες βάσεις δεδομένων κληρονομιά έχουν κάποιο μηχανισμό για τα δεδομένα ντάμπινγκ σε αρχεία, η τεχνική αυτή δημιουργεί περιοδικές στιγμιότυπα και στη συνέχεια συγκρίνει τα αποτελέσματα για την παραγωγή αρχείων αλλαγή. Βέβαια, όλα τα προβλήματα της στατικής σύλληψης είναι παρόντες εδώ. Προστέθηκε πολυπλοκότητα εισάγεται από την πρόκληση της σύγκρισης ολόκληρες γραμμές των πληροφοριών και από τους βασικούς αναγνώρισης και αντιστοίχισης. Αυτή η τεχνική είναι πολύπλοκη ως προς τη φύση και τυπικά δεν είναι επιθυμητό, αλλά, σε ορισμένες περιπτώσεις, μπορεί να είναι η μόνη λύση.
Αυτό είναι το πιο σχετικό εδώ: Καθώς προχωρούμε στη σφαίρα των αποθηκών δεδομένων terabyte, η ικανότητα για την ανοικοδόμηση της αποθήκης δεδομένων από την αρχή κάθε βράδυ θα ακολουθήσουν τον δρόμο των δεινοσαύρων. Η λογική και αποτελεσματική προσέγγιση για την ενημέρωση της αποθήκης δεδομένων περιλαμβάνει κάποια μορφή των στοιχειωδών στρατηγικής ενημέρωσης.
Έτσι υποθέτω ότι είμαι στο σωστό δρόμο, τότε; Ένας δείκτης btree δεν θα δώσει ένα πλεονέκτημα;