Είμαι αρκετά καλά με την Python, έτσι ψευδο-κώδικα θα είναι αρκετή όταν τα στοιχεία είναι ασήμαντα. Παρακαλώ να μου ξεκίνησε το έργο - πώς πάει σχετικά με την ανίχνευση του καθαρού για τις διευθύνσεις e-mail σαλιγκάρι των εκκλησιών στην πολιτεία μου. Μόλις έχω μια επένδυση όπως «123 Old West Road # 3 Old Lyme Πόλη MD 01234», θα μπορεί πιθανώς να το αναλύσει σε πόλη, κράτος, οδός, αριθμός, ικανό με αρκετά δοκιμής και λάθους. Το πρόβλημά μου είναι - αν μπορώ να χρησιμοποιήσω λευκές σελίδες στο διαδίκτυο, τότε πώς μπορώ να ασχοληθεί με όλα τα σκουπίδια HTML, πίνακες HTML, διαφημίσεις, κλπ; Δεν νομίζω ότι χρειάζομαι τον αριθμό τηλεφώνου τους, αλλά δεν θα βλάψει - μπορώ να το ρίξει πάντα μια φορά αναλυθεί. Ακόμη και αν η λύση σας είναι μισό-εγχειρίδιο (όπως η αποθήκευση σε pdf, στη συνέχεια, ανοίξτε ακροβάτης, εκτός κειμένου) - θα μπορούσε να είναι ικανοποιημένος με αυτό ακόμα. Ευχαριστώ! Heck, εγώ θα δεχτεί ακόμη Perl αποσπάσματα - μπορώ να τα μεταφράσει τον εαυτό μου.
Να πάρει μια λίστα με όλες τις εκκλησίες σε μια συγκεκριμένη κατάσταση, χρησιμοποιώντας Python
Προσπαθήστε lynx --dump <url>να κατεβάσετε τις ιστοσελίδες. Όλες οι ενοχλητικές ετικέτες HTML θα πρέπει να αφαιρεθεί από την έξοδο, και όλες οι συνδέσεις από τη σελίδα θα εμφανίζονται μαζί.
Θα μπορούσατε να χρησιμοποιήσετε μηχανοποιώ . Είναι μια βιβλιοθήκη Python που προσομοιώνει ένα πρόγραμμα περιήγησης, ώστε να μπορείτε να ανιχνεύσουμε μέσα από τις λευκές σελίδες (παρόμοια με αυτό που κάνετε με το χέρι).
Για την αντιμετώπιση του πύθωνα «html σκουπίδια» έχει μια βιβλιοθήκη γι 'αυτό πάρα πολύ: BeautifulSoup Είναι ένας καλός τρόπος για να πάρετε τα δεδομένα που θέλετε από HTML (φυσικά προϋποθέτει ξέρετε λίγο για HTML, όπως και εσείς ακόμα πρέπει να περιηγηθείτε το συντακτικό δένδρο).
Ενημέρωση: Όσον αφορά την παρακολούθηση ερώτησή σας για το πώς να κάνετε κλικ μέσα από πολλές σελίδες. μηχανοποιώ είναι μια βιβλιοθήκη για να κάνει ακριβώς αυτό. Ρίξτε μια προσεκτική ματιά στα παραδείγματα τους, esp. η μέθοδος follow_link. Όπως είπα και προσομοιώνει ένα πρόγραμμα περιήγησης, έτσι ώστε «κλικ» μπορεί να πραγματοποιηθεί γρήγορα σε python.
Αυτό που προσπαθούμε να κάνουμε είναι να ονομάζεται απόξεση ή web απόξεση.
Αν κάνουμε κάποιες αναζητήσεις για python και απόξεση , μπορείτε να βρείτε μια λίστα με τα εργαλεία που θα σας βοηθήσουν.
(Δεν έχω χρησιμοποιήσει ποτέ scrapy, αλλά είναι το site φαίνεται πολλά υποσχόμενη :)
Όμορφη Σούπα είναι ένα δεν brainer. Εδώ είναι ένα site που μπορεί να ξεκινούν από http://www.churchangel.com/ . Έχουν μια τεράστια λίστα και η μορφοποίηση είναι πολύ τακτική - μετάφραση: εύκολο να BSoup ρύθμιση για να ξύσετε.
σεναρίων Python μπορεί να μην είναι το καλύτερο εργαλείο για αυτή τη δουλειά, αν είστε απλά ψάχνουν για τις διευθύνσεις των εκκλησιών σε μια γεωγραφική περιοχή.
Η απογραφή των ΗΠΑ παρέχει ένα σύνολο δεδομένων των εκκλησιών για χρήση με γεωγραφικά συστήματα πληροφοριών. Αν βρουν όλα τα xσε μια χωρική περιοχή είναι ένα επαναλαμβανόμενο πρόβλημα, να επενδύσουν στην εκμάθηση ενός GIS. Στη συνέχεια, μπορείτε να φέρετε τις ικανότητές Python σας για να φέρει σε πολλές γεωγραφικές εργασίες.













