PythonでGoogle Vision AIを始めよう:画像からテキストを抽出する方法
PythonとGoogle Cloud Vision APIを活用して、画像からテキストを検出・抽出する方法をご紹介します。
📌 目次
Google Cloud Vision APIとは?
Google Cloud Vision APIは、Googleが提供する画像認識のための機械学習ベースのAPIです。特にOCR(光学文字認識)機能を使用することで、画像内のテキストを正確に抽出することができます。
このAPIは以下のような用途に活用されています。
- スキャンした書類のデジタル化
- 領収書や名刺の自動処理
- 商品ラベルの解析
- サインや看板の翻訳など
準備ステップ
PythonでVision APIを使うためのステップを以下にまとめます。
✅ 1. Google Cloudアカウント作成
- https://cloud.google.com にアクセスし、Googleアカウントでログイン
- プロジェクトを新規作成
✅ 2. Vision APIを有効にする
✅ 3. サービスアカウントキー作成
- IAMと管理 → サービスアカウントからキーを生成(JSON形式)
✅ 4. 必要なPythonライブラリをインストール
pip install google-cloud-vision
Pythonコードでテキスト抽出
以下は画像ファイルからテキストを検出するためのシンプルなPythonコード例です。
from google.cloud import vision def detect_text(path): client = vision.ImageAnnotatorClient() with open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.text_detection(image=image) texts = response.text_annotations if texts: print("検出されたテキスト:") print(texts[0].description) else: print("テキストは検出されませんでした。") # 使用例 detect_text("sample.jpg")
🔍 ポイント
text_annotations[0].descriptionには、全文の文字列が含まれます。- 日本語の画像でも高精度で認識できます。
注意点とベストプラクティス
- 画像品質:解像度が低いと認識精度も下がります。できるだけ明瞭な画像を使用しましょう。
- API使用料金:無料枠がありますが、月間使用量が多い場合は課金対象となるので注意が必要です。
- 機密情報の取り扱い:画像に個人情報が含まれる場合は、Googleのデータ処理ポリシーを確認してください。
まとめ
PythonとGoogle Vision APIを組み合わせることで、画像のテキスト情報を簡単に抽出できます。書類のデジタル化、業務自動化、機械学習前処理など、さまざまな場面で応用できる強力なツールです。
業務の効率化やAI活用の第一歩として、ぜひ試してみてください!