Πώς οι μηχανές περιεχομένου ανακάλυψη, όπως Zemanta και ανοικτό Calais εργασία;

ψήφοι
5

Αναρωτιόμουν πώς η σημασιολογική υπηρεσία όπως Ανοικτό Καλαί στοιχεία από τα ονόματα των εταιριών, ή άτομα, τεχνολογίας έννοιες, λέξεις-κλειδιά, κλπ από ένα κομμάτι του κειμένου. Είναι επειδή έχουν μια μεγάλη βάση δεδομένων ώστε να ταιριάζει με το κείμενο κατά;

Πώς θα μια υπηρεσία όπως Zemanta ξέρετε τι εικόνες να προτείνει σε ένα κομμάτι του κειμένου, για παράδειγμα;

Δημοσιεύθηκε 22/08/2008 στις 09:51
πηγή χρήστη
Σε άλλες γλώσσες...                            


3 απαντήσεις

ψήφοι
0

Ανοίξτε Καλαί κατά πάσα πιθανότητα χρησιμοποιούν την τεχνολογία ανάλυσης γλώσσα και τη γλώσσα στατικής να μαντέψει ποιες λέξεις ή φράσεις έχουν ονόματα, μέρη, επιχειρήσεις, κ.λπ. Στη συνέχεια, είναι απλώς άλλο ένα βήμα για να κάνει κάποια έρευνα για τις εν λόγω οντότητες και να επιστρέψει μεταδεδομένα.

Zementa ίσως κάνει κάτι παρόμοιο, αλλά ταιριάζει με τις φράσεις κατά των μετα-δεδομένων που συνδέονται με τις εικόνες ώστε να αποκτήσει σχετικά αποτελέσματα.

Σίγουρα δεν είναι εύκολο.

Απαντήθηκε 22/08/2008 στις 16:58
πηγή χρήστη

ψήφοι
7

Δεν είμαι εξοικειωμένος με τις ειδικές υπηρεσίες που αναφέρονται, αλλά το πεδίο της επεξεργασίας φυσικής γλώσσας έχει αναπτύξει μια σειρά από τεχνικές που επιτρέπουν αυτό το είδος της εξόρυξης πληροφοριών από γενικό κείμενο. Όπως δήλωσε ο Sean, αφού έχετε υποψήφιος όρους, δεν είναι να είναι δύσκολο να αναζητήσετε αυτούς τους όρους με μερικά από τα άλλα πρόσωπα στο πλαίσιο και στη συνέχεια να χρησιμοποιήσουν τα αποτελέσματα της έρευνας για να καθορίσει πόσο σίγουροι είστε ότι ο όρος εξάγεται είναι μια πραγματική οντότητα ενδιαφέρον.

OpenNLP είναι ένα μεγάλο έργο, αν θέλετε να παίξετε γύρω με επεξεργασία φυσικής γλώσσας. Οι δυνατότητες που έχετε όνομά του θα μπορούσε πιθανότατα να είναι καλύτερα επιτευχθεί με Named Entity αναγνώρισηςπλαίσιο (NER) (αλγόριθμοι που εντοπίσετε κύρια ονόματα, γενικά, και μερικές φορές χρονολογείται επίσης) και / ή το Word Sense αποσαφήνισης (WSD) (π.χ. η λέξη «τράπεζα» έχει διαφορετικές σημασίες, ανάλογα με αυτό είναι το πλαίσιο, και αυτό μπορεί να είναι πολύ σημαντικό όταν άντληση πληροφοριών από το κείμενο Λαμβάνοντας υπόψη τις προτάσεις:. «το αεροπλάνο κλίση αριστερά», «η τράπεζα χιόνι ήταν υψηλό», και «λήστεψαν την τράπεζα» μπορείτε να δείτε πώς dissambiguation μπορεί να διαδραματίσει σημαντικό ρόλο στην κατανόηση της γλώσσας)

Τεχνικές χτίσει σε γενικές γραμμές ο ένας στον άλλο, και NER είναι ένα από τα πιο σύνθετα καθήκοντα, έτσι ώστε να κάνει NER με επιτυχία, θα πρέπει γενικά ακριβή tokenizers (φυσική γλώσσα tokenizers, το μυαλό σας - στατιστικές προσεγγίσεις τείνουν να τα πηγαίνουν τα καλύτερα), stemmers εγχόρδων ( αλγόριθμοι που ταυτίζουν παρόμοιες λέξεις με κοινές ρίζες: έτσι λέξεις όπως πληροφοριοδότη και πληροφοριοδότης αντιμετωπίζονται ισότιμα), ανίχνευση πρόταση ( «Ο κ Jones ήταν ψηλός.» είναι μόνο μία φράση, έτσι δεν μπορείτε απλά ελέγξτε για σημεία στίξης), μερική της -Ομιλία taggers (taggers POS), και WSD.

Υπάρχει ένα λιμάνι πύθωνας της (τμήματα) OpenNLP ονομάζεται NLTK ( http://nltk.sourceforge.net ), αλλά δεν έχω μεγάλη εμπειρία με αυτό ακόμα. Οι περισσότεροι από τη δουλειά μου έχει με τις Java και C # λιμάνια, τα οποία λειτουργούν καλά.

Όλες αυτές οι αλγόριθμοι είναι συγκεκριμένη γλώσσα, βέβαια, και μπορεί να πάρει σημαντικό χρόνο για να τρέξει (αν και είναι γενικά πιο γρήγορα από την ανάγνωση του υλικού που επεξεργάζεται). Από το state-of-the-art βασίζεται σε μεγάλο βαθμό σε στατιστικές τεχνικές, υπάρχει επίσης ένα σημαντικό ποσοστό σφάλματος για να ληφθούν υπόψη. Επιπλέον, επειδή οι επιπτώσεις ποσοστό σφάλματος όλα τα στάδια, και κάτι σαν NER απαιτεί πολλά στάδια επεξεργασίας, (tokenize -> ποινή ανίχνευση -> tag POS -> WSD -> NER) τα ποσοστά σφάλματος ένωση.

Απαντήθηκε 30/08/2008 στις 02:56
πηγή χρήστη

ψήφοι
9

Michal Finkelstein από εδώ OpenCalais.

Κατ 'αρχάς, ευχαριστώ για το ενδιαφέρον σας. Θα απαντήσω εδώ, αλλά ενθαρρύνει επίσης να διαβάσετε περισσότερα για τα φόρουμ OpenCalais? υπάρχουν πολλές πληροφορίες εκεί, συμπεριλαμβανομένων - αλλά δεν περιορίζονται σε: http://opencalais.com/tagging-information http://opencalais.com/how-does-calais-learn Επίσης μπορείτε να μας ακολουθήσετε στο Twitter (@OpenCalais ) ή να μας στείλετε email στο team@opencalais.com

Τώρα με την απάντηση:

OpenCalais βασίζεται σε μια δεκαετία έρευνας και ανάπτυξης στον τομέα της Επεξεργασίας Φυσικής Γλώσσας και Text Analytics.

Υποστηρίζουμε την πλήρη «NLP Stack» (όπως μας αρέσει να το αποκαλούμε): Από tokenization κειμένου, μορφολογική ανάλυση και POS tagging, σε ρηχά ανάλυση και τον προσδιορισμό ονομαστικών και λεκτικές φράσεις.

Σημασιολογία μπαίνουν στο παιχνίδι, όταν ψάχνουμε για Προσώπων (γνωστός και ως οντότητας Εξόρυξη, Named Entity Recognition). Για το σκοπό αυτό έχουμε ένα εξελιγμένο σύστημα βασισμένο σε κανόνες που συνδυάζει κανόνες ανακάλυψη, καθώς και λεξικά / λεξικά. Ο συνδυασμός αυτός μας επιτρέπει να προσδιορίσουμε τα ονόματα των επιχειρήσεων / προσώπων / ταινίες, κλπ, ακόμη και αν δεν υπάρχουν σε οποιαδήποτε διαθέσιμη λίστα.

Για τα πιο γνωστά πρόσωπα (όπως οι άνθρωποι, επιχειρήσεις) πρέπει επίσης να εκτελέσει anaphora ανάλυση, παραπομπή και το όνομα αγιοποίηση / ομαλοποίηση στο επίπεδο του άρθρου, οπότε θα ξέρουμε ότι «John Smith» και «κ Smith», για παράδειγμα, είναι πιθανό αναφερόμενος στο ίδιο πρόσωπο. Έτσι, η σύντομη απάντηση στην ερώτησή σας είναι - όχι, δεν είναι μόνο για αντιστοιχία ενάντια μεγάλες βάσεις δεδομένων.

Εκδηλώσεις / Τα γεγονότα είναι πραγματικά ενδιαφέρον, γιατί παίρνουν κανόνες ανακάλυψή μας ένα επίπεδο πιο βαθιά? βρίσκουμε τις σχέσεις μεταξύ των φορέων και την ετικέτα τους με τον κατάλληλο τύπο, για παράδειγμα, Μ & Ε (σχέσεις μεταξύ δύο ή περισσοτέρων εταιρειών), Μεταβολές Απασχόλησης (σχέσεις μεταξύ των επιχειρήσεων και των ανθρώπων), και ούτω καθεξής. Περιττό να πούμε ότι, εξόρυξη Εκδήλωση / Γεγονός που δεν είναι δυνατόν για συστήματα που βασίζονται αποκλειστικά σε λεξικά. Για το μεγαλύτερο μέρος, το σύστημά μας είναι συντονισμένοι για να ακρίβειας προσανατολισμό, αλλά προσπαθούμε πάντα να κρατήσει μια λογική ισορροπία μεταξύ ακρίβειας και εξ ολοκλήρου.

Με την ευκαιρία, υπάρχουν μερικά δροσερά νέες δυνατότητες μεταδεδομένα που βγαίνει αργότερα αυτό το μήνα, οπότε μείνετε συντονισμένοι.

Χαιρετισμοί,

Michal

Απαντήθηκε 04/05/2009 στις 18:45
πηγή χρήστη

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more