PythonでGoogle Vision AIを始めよう:画像からテキストを抽出する方法

PythonGoogle Cloud Vision APIを活用して、画像からテキストを検出・抽出する方法をご紹介します。


📌 目次

  1. Google Cloud Vision APIとは?
  2. 準備ステップ
  3. Pythonコードでテキスト抽出
  4. 注意点とベストプラクティス
  5. まとめ

Google Cloud Vision APIとは?

Google Cloud Vision APIは、Googleが提供する画像認識のための機械学習ベースのAPIです。特にOCR光学文字認識)機能を使用することで、画像内のテキストを正確に抽出することができます。

このAPIは以下のような用途に活用されています。

  • スキャンした書類のデジタル化
  • 領収書や名刺の自動処理
  • 商品ラベルの解析
  • サインや看板の翻訳など

準備ステップ

PythonVision APIを使うためのステップを以下にまとめます。

✅ 1. Google Cloudアカウント作成

✅ 2. Vision APIを有効にする

  • APIライブラリから「Vision API」を検索し、有効化

✅ 3. サービスアカウントキー作成

  • IAMと管理 → サービスアカウントからキーを生成(JSON形式)

✅ 4. 必要なPythonライブラリをインストール

pip install google-cloud-vision

Pythonコードでテキスト抽出

以下は画像ファイルからテキストを検出するためのシンプルなPythonコード例です。

from google.cloud import vision

def detect_text(path):
    client = vision.ImageAnnotatorClient()

    with open(path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)
    response = client.text_detection(image=image)
    texts = response.text_annotations

    if texts:
        print("検出されたテキスト:")
        print(texts[0].description)
    else:
        print("テキストは検出されませんでした。")

# 使用例
detect_text("sample.jpg")

🔍 ポイント

  • text_annotations[0].description には、全文の文字列が含まれます。
  • 日本語の画像でも高精度で認識できます。

注意点とベストプラクティス

  • 画像品質:解像度が低いと認識精度も下がります。できるだけ明瞭な画像を使用しましょう。
  • API使用料金:無料枠がありますが、月間使用量が多い場合は課金対象となるので注意が必要です。
  • 機密情報の取り扱い:画像に個人情報が含まれる場合は、Googleのデータ処理ポリシーを確認してください。

まとめ

PythonGoogle Vision APIを組み合わせることで、画像のテキスト情報を簡単に抽出できます。書類のデジタル化、業務自動化、機械学習前処理など、さまざまな場面で応用できる強力なツールです。

業務の効率化やAI活用の第一歩として、ぜひ試してみてください!


🔗 関連リンク・リファレンス