Πώς μπορείτε να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API;

by Ακαδημία EITCA / Τετάρτη, 27 2023 Δεκέμβριο / Δημοσιεύθηκε στο Τεχνητή νοημοσύνη, EITC/AI/GVAPI Google Vision API, Κατανόηση κειμένου σε οπτικά δεδομένα, Εντοπισμός και εξαγωγή κειμένου από το χειρόγραφο, Ανασκόπηση εξέτασης

Για να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API, μπορείτε να ακολουθήσετε μια σειρά βημάτων που περιλαμβάνουν τη χρήση των δυνατοτήτων Optical Character Recognition (OCR) του API. Η τεχνολογία OCR στο Google Vision API επιτρέπει τον εντοπισμό και την εξαγωγή κειμένου από εικόνες, συμπεριλαμβανομένου του χειρόγραφου. Αυτή η λειτουργία είναι ιδιαίτερα χρήσιμη σε εφαρμογές που απαιτούν ανάλυση και κατανόηση των κειμενικών πληροφοριών που υπάρχουν σε οπτικά δεδομένα.

Αρχικά, πρέπει να ρυθμίσετε το απαραίτητο περιβάλλον για να εργαστείτε με το Google Vision API. Αυτό περιλαμβάνει τη δημιουργία ενός έργου στο Google Cloud Console, την ενεργοποίηση του Vision API και τη λήψη των απαιτούμενων διαπιστευτηρίων ελέγχου ταυτότητας, όπως ένα κλειδί API ή ένα κλειδί λογαριασμού υπηρεσίας.

Μόλις ρυθμιστεί το περιβάλλον σας, μπορείτε να χρησιμοποιήσετε τη μέθοδο «asyncBatchAnnotateFiles» του Vision API για να εκτελέσετε OCR σε ένα αρχείο εικόνας. Αυτή η μέθοδος σάς επιτρέπει να μεταβιβάζετε μια λίστα αρχείων εικόνας για επεξεργασία και να λαμβάνετε τα αποτελέσματα ασύγχρονα. Εναλλακτικά, μπορείτε να χρησιμοποιήσετε τη μέθοδο «asyncBatchAnnotateImages» για να επεξεργαστείτε απευθείας μια λίστα εικόνων.

Για να εξαγάγετε κείμενο από μια εικόνα, πρέπει να δημιουργήσετε μια παρουσία του αντικειμένου `AnnotateImageRequest` και να καθορίσετε τα επιθυμητά χαρακτηριστικά. Σε αυτήν την περίπτωση, θα ρυθμίσετε τη δυνατότητα "TEXT_DETECTION" για να υποδείξετε ότι θέλετε να εξαγάγετε κείμενο από την εικόνα. Μπορείτε επίσης να καθορίσετε πρόσθετες παραμέτρους όπως η υπόδειξη γλώσσας για να βελτιώσετε την ακρίβεια του OCR.

Στη συνέχεια, πρέπει να κωδικοποιήσετε το αρχείο εικόνας σε μια συμβολοσειρά με κωδικοποίηση base64 και να δημιουργήσετε μια παρουσία του αντικειμένου `Image` χρησιμοποιώντας τα κωδικοποιημένα δεδομένα εικόνας. Αυτό το αντικείμενο «Image» θα πρέπει να προστεθεί στο αντικείμενο «AnnotateImageRequest» που δημιουργήθηκε νωρίτερα.

Αφού ρυθμίσετε το αίτημα, μπορείτε να το στείλετε στο Vision API χρησιμοποιώντας τη μέθοδο «batchAnnotateImages» ή «batchAnnotateFiles», ανάλογα με την προσέγγιση που έχετε επιλέξει. Το API θα επεξεργαστεί την εικόνα και θα επιστρέψει μια απάντηση που περιέχει το εξαγόμενο κείμενο.

Για να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από την απάντηση, μπορείτε να επαναλάβετε το πεδίο «textAnnotations» του αντικειμένου «AnnotateImageResponse». Αυτό το πεδίο περιέχει μια λίστα αντικειμένων «EntityAnnotation», καθένα από τα οποία αντιπροσωπεύει ένα στοιχείο κειμένου που έχει εντοπιστεί στην εικόνα. Το πεδίο «περιγραφή» κάθε αντικειμένου «EntityAnnotation» περιέχει το εξαγόμενο κείμενο.

Ακολουθεί ένα παράδειγμα αποσπάσματος κώδικα στην Python που δείχνει πώς να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API:

python
from google.cloud import vision

def extract_text_from_image(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)

    request = vision.AnnotateImageRequest(
        image=image,
        features=[{'type': vision.Feature.Type.TEXT_DETECTION}]
    )

    response = client.batch_annotate_images(requests=[request])

    for annotation in response.responses[0].text_annotations:
        extracted_text = annotation.description
        print(extracted_text)

# Usage
extract_text_from_image('path_to_image.jpg')

Σε αυτό το παράδειγμα, η συνάρτηση `exttract_text_from_image` παίρνει τη διαδρομή προς ένα αρχείο εικόνας ως είσοδο και χρησιμοποιεί τη βιβλιοθήκη προγράμματος-πελάτη Google Cloud Vision για να στείλει ένα αίτημα στο Vision API. Στη συνέχεια εκτυπώνεται το εξαγόμενο κείμενο.

Για να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API, πρέπει να ρυθμίσετε το περιβάλλον, να δημιουργήσετε ένα αντικείμενο `AnnotateImageRequest` με τις επιθυμητές δυνατότητες, να κωδικοποιήσετε το αρχείο εικόνας, να στείλετε το αίτημα στο API και να ανακτήσετε το εξαγόμενο κείμενο από την απάντηση. Οι δυνατότητες OCR του Vision API επιτρέπουν τον εντοπισμό και την εξαγωγή κειμένου από εικόνες, συμπεριλαμβανομένου του χειρόγραφου.

Άλλες πρόσφατες ερωτήσεις και απαντήσεις σχετικά με Εντοπισμός και εξαγωγή κειμένου από το χειρόγραφο:

Περισσότερες ερωτήσεις και απαντήσεις:

Κατηγορίες: Τεχνητή νοημοσύνη, Google Cloud Vision API, ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ, OCR, Οπτική αναγνώριση χαρακτήρων, Εξαγωγή κειμένου

Ακαδημία EITCA

Πώς μπορείτε να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API;

Άλλες πρόσφατες ερωτήσεις και απαντήσεις σχετικά με Εντοπισμός και εξαγωγή κειμένου από το χειρόγραφο:

Περισσότερες ερωτήσεις και απαντήσεις:

Η Ακαδημία EITCA αποτελεί μέρος του Ευρωπαϊκού Πλαισίου Πιστοποίησης Πληροφορικής

Επιλεξιμότητα για EITCA Academy 80% EITCI DSJC Υποστήριξη επιδότησης

Ακαδημία EITCA

Συνδεθείτε στον λογαριασμό σας με διαφορετικό όνομα χρήστη ή διεύθυνση ηλεκτρονικού ταχυδρομείου

ΑΠΑΓΟΡΕΥΕΤΕ ΤΑ ΣΤΟΙΧΕΙΑ ΣΑΣ;

ΔΗΜΙΟΥΡΓΊΑ ΛΟΓΑΡΙΑΣΜΟΎ

Πώς μπορείτε να αποκτήσετε πρόσβαση στο εξαγόμενο κείμενο από μια εικόνα χρησιμοποιώντας το Google Vision API;

Άλλες πρόσφατες ερωτήσεις και απαντήσεις σχετικά με Εντοπισμός και εξαγωγή κειμένου από το χειρόγραφο:

Περισσότερες ερωτήσεις και απαντήσεις:

Επιλεξιμότητα για EITCA Academy 80% EITCI DSJC Υποστήριξη επιδότησης