PythonでGoogle Vision AIを始めよう：画像からテキストを抽出する方法

PythonとGoogle Cloud Vision APIを活用して、画像からテキストを検出・抽出する方法をご紹介します。

📌 目次

Google Cloud Vision APIとは？
準備ステップ
Pythonコードでテキスト抽出
注意点とベストプラクティス
まとめ

Google Cloud Vision APIとは？

Google Cloud Vision APIは、Googleが提供する画像認識のための機械学習ベースのAPIです。特にOCR（光学文字認識）機能を使用することで、画像内のテキストを正確に抽出することができます。

このAPIは以下のような用途に活用されています。

スキャンした書類のデジタル化
領収書や名刺の自動処理
商品ラベルの解析
サインや看板の翻訳など

準備ステップ

PythonでVision APIを使うためのステップを以下にまとめます。

✅ 1. Google Cloudアカウント作成

https://cloud.google.com にアクセスし、Googleアカウントでログイン
プロジェクトを新規作成

✅ 2. Vision APIを有効にする

APIライブラリから「Vision API」を検索し、有効化

✅ 3. サービスアカウントキー作成

IAMと管理 → サービスアカウントからキーを生成（JSON形式）

✅ 4. 必要なPythonライブラリをインストール

pip install google-cloud-vision

Pythonコードでテキスト抽出

以下は画像ファイルからテキストを検出するためのシンプルなPythonコード例です。

from google.cloud import vision

def detect_text(path):
    client = vision.ImageAnnotatorClient()

    with open(path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)
    response = client.text_detection(image=image)
    texts = response.text_annotations

    if texts:
        print("検出されたテキスト:")
        print(texts[0].description)
    else:
        print("テキストは検出されませんでした。")

# 使用例
detect_text("sample.jpg")

🔍 ポイント

text_annotations[0].description には、全文の文字列が含まれます。
日本語の画像でも高精度で認識できます。

注意点とベストプラクティス

画像品質：解像度が低いと認識精度も下がります。できるだけ明瞭な画像を使用しましょう。
API使用料金：無料枠がありますが、月間使用量が多い場合は課金対象となるので注意が必要です。
機密情報の取り扱い：画像に個人情報が含まれる場合は、Googleのデータ処理ポリシーを確認してください。

まとめ

PythonとGoogle Vision APIを組み合わせることで、画像のテキスト情報を簡単に抽出できます。書類のデジタル化、業務自動化、機械学習前処理など、さまざまな場面で応用できる強力なツールです。

業務の効率化やAI活用の第一歩として、ぜひ試してみてください！

AIko Code Symphony