Για να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API, μπορείτε να ακολουθήσετε μια σειρά βημάτων που περιλαμβάνουν τη χρήση των δυνατοτήτων Optical Character Recognition (OCR) του API. Η τεχνολογία OCR στο Google Vision API επιτρέπει τον εντοπισμό και την εξαγωγή κειμένου από εικόνες, συμπεριλαμβανομένου του χειρόγραφου. Αυτή η λειτουργία είναι ιδιαίτερα χρήσιμη σε εφαρμογές που απαιτούν ανάλυση και κατανόηση των κειμενικών πληροφοριών που υπάρχουν σε οπτικά δεδομένα.
Αρχικά, πρέπει να ρυθμίσετε το απαραίτητο περιβάλλον για να εργαστείτε με το Google Vision API. Αυτό περιλαμβάνει τη δημιουργία ενός έργου στο Google Cloud Console, την ενεργοποίηση του Vision API και τη λήψη των απαιτούμενων διαπιστευτηρίων ελέγχου ταυτότητας, όπως ένα κλειδί API ή ένα κλειδί λογαριασμού υπηρεσίας.
Μόλις ρυθμιστεί το περιβάλλον σας, μπορείτε να χρησιμοποιήσετε τη μέθοδο «asyncBatchAnnotateFiles» του Vision API για να εκτελέσετε OCR σε ένα αρχείο εικόνας. Αυτή η μέθοδος σάς επιτρέπει να μεταβιβάζετε μια λίστα αρχείων εικόνας για επεξεργασία και να λαμβάνετε τα αποτελέσματα ασύγχρονα. Εναλλακτικά, μπορείτε να χρησιμοποιήσετε τη μέθοδο «asyncBatchAnnotateImages» για να επεξεργαστείτε απευθείας μια λίστα εικόνων.
Για να εξαγάγετε κείμενο από μια εικόνα, πρέπει να δημιουργήσετε μια παρουσία του αντικειμένου `AnnotateImageRequest` και να καθορίσετε τα επιθυμητά χαρακτηριστικά. Σε αυτήν την περίπτωση, θα ρυθμίσετε τη δυνατότητα "TEXT_DETECTION" για να υποδείξετε ότι θέλετε να εξαγάγετε κείμενο από την εικόνα. Μπορείτε επίσης να καθορίσετε πρόσθετες παραμέτρους όπως η υπόδειξη γλώσσας για να βελτιώσετε την ακρίβεια του OCR.
Στη συνέχεια, πρέπει να κωδικοποιήσετε το αρχείο εικόνας σε μια συμβολοσειρά με κωδικοποίηση base64 και να δημιουργήσετε μια παρουσία του αντικειμένου `Image` χρησιμοποιώντας τα κωδικοποιημένα δεδομένα εικόνας. Αυτό το αντικείμενο «Image» θα πρέπει να προστεθεί στο αντικείμενο «AnnotateImageRequest» που δημιουργήθηκε νωρίτερα.
Αφού ρυθμίσετε το αίτημα, μπορείτε να το στείλετε στο Vision API χρησιμοποιώντας τη μέθοδο «batchAnnotateImages» ή «batchAnnotateFiles», ανάλογα με την προσέγγιση που έχετε επιλέξει. Το API θα επεξεργαστεί την εικόνα και θα επιστρέψει μια απάντηση που περιέχει το εξαγόμενο κείμενο.
Για να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από την απάντηση, μπορείτε να επαναλάβετε το πεδίο «textAnnotations» του αντικειμένου «AnnotateImageResponse». Αυτό το πεδίο περιέχει μια λίστα αντικειμένων «EntityAnnotation», καθένα από τα οποία αντιπροσωπεύει ένα στοιχείο κειμένου που έχει εντοπιστεί στην εικόνα. Το πεδίο «περιγραφή» κάθε αντικειμένου «EntityAnnotation» περιέχει το εξαγόμενο κείμενο.
Ακολουθεί ένα παράδειγμα αποσπάσματος κώδικα στην Python που δείχνει πώς να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
Σε αυτό το παράδειγμα, η συνάρτηση `exttract_text_from_image` παίρνει τη διαδρομή προς ένα αρχείο εικόνας ως είσοδο και χρησιμοποιεί τη βιβλιοθήκη προγράμματος-πελάτη Google Cloud Vision για να στείλει ένα αίτημα στο Vision API. Στη συνέχεια εκτυπώνεται το εξαγόμενο κείμενο.
Για να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API, πρέπει να ρυθμίσετε το περιβάλλον, να δημιουργήσετε ένα αντικείμενο `AnnotateImageRequest` με τις επιθυμητές δυνατότητες, να κωδικοποιήσετε το αρχείο εικόνας, να στείλετε το αίτημα στο API και να ανακτήσετε το εξαγόμενο κείμενο από την απάντηση. Οι δυνατότητες OCR του Vision API επιτρέπουν τον εντοπισμό και την εξαγωγή κειμένου από εικόνες, συμπεριλαμβανομένου του χειρόγραφου.
Άλλες πρόσφατες ερωτήσεις και απαντήσεις σχετικά με Εντοπισμός και εξαγωγή κειμένου από το χειρόγραφο:
- Ποιοι περιορισμοί μπορεί να προκύψουν κατά την εξαγωγή κειμένου από πολύπλοκα έγγραφα χρησιμοποιώντας το Google Vision API;
- Ποια είναι η σημασία των επιπέδων εμπιστοσύνης στην ερμηνεία κειμένου του Google Vision API;
- Πώς μπορεί το Google Vision API να αναγνωρίσει και να εξαγάγει με ακρίβεια κείμενο από χειρόγραφες σημειώσεις;
- Ποιες είναι οι προκλήσεις στον εντοπισμό και την εξαγωγή κειμένου από χειρόγραφες εικόνες;
- Μπορεί το Google Vision να αναγνωρίσει το χειρόγραφο;