Windows に Tesseract をインストールする方法

Windows Ni Tesseract Woinsutorusuru Fang Fa



Tesseract は、無料で利用できるオープンソースのテキスト認識ツールで、OCR (光学式文字認識) としても知られています。主に、画像からテキストを識別して抽出するために使用されます。画像データからテキストを読み取り、出力を新しい .txt ファイルに書き込みます。 Tesseract は、主に画像から手書きを認識するために使用されるため、Python でも動作します。 LSTR(長期短期記憶)モデルを使用しています。 Tesseract は Apache 2.0 ライセンスの下で動作しています。

Windows に Tesseract をインストールする方法については、このブログで詳しく説明します。







それでは、始めましょう!



WindowsにTesseractをインストールするには?

Tesseract は、画像からのテキスト抽出に使用されるコマンド ライン ツールです。 Windows に Tesseract をインストールするには、以下の手順に従う必要があります。



ステップ 1: Tesseract インストーラーをダウンロードする





まず、以下のリンクに移動し、システム仕様に従って Tesseract インストーラーをダウンロードします。

https: /// github.com / UB-マンハイム / テッセラクト /



ステップ 2: Tesseract インストーラーを実行する

訪問 ' ダウンロード 」 Tesseract インストーラーがダウンロードされるディレクトリ。 Windows に Tesseract をインストールするには、Tesseract インストーラーをダブルクリックして実行します。

ステップ 3: 言語の選択

多くの言語が Tesseract インストーラーでサポートされています。インストーラー UI を操作するには、「 英語 」を言語として選択し、「 わかった 」:

ステップ 4: Tesseract をインストールする

そうすると、Tesseract OCR セットアップ ウィザードが画面に表示されます。 Tesseract のインストールを開始するには、「 ' ボタン:

「を受け入れる」 ライセンス契約 '、 クリック ' 同意します ' ボタン:

を選択 ' このコンピューターを使用するすべてのユーザーにインストール 」オプションを選択し、「 ' ボタン:

スクリプト データを追加したり、別の言語を含めたりする場合は、それぞれのチェックボックスをマークして「 ' ボタン。追加のデータ スクリプトや言語は必要ないため、デフォルトで選択されたオプションを使用します。

インストール場所を選択し、「 ' ボタン:

[スタート] メニューにショートカットを作成したくない場合は、「 ショートカットを作成しないでください 」チェックボックスをオンにして、「 インストール ' ボタン:

その後、Tesseract のインストールが開始されます。インストールが完了するまで待ち、「 ' ボタン:

最後に、「 終了 ' ボタン:

ステップ 5: 環境変数を設定する

インストール後、Tesseract の環境変数を設定する必要があります。これを行うには、まず Tesseract をインストールしたディレクトリにアクセスし、「 住所 ' バー:

「」を検索してください。 環境変数 ' の中に ' 起動 ” メニューと開く “ システム環境変数を編集する 」:

設定内で、「 高度 」設定メニューをクリックし、「 環境変数 ' ボタン:

「」を選択 ”からの変数” システム変数 」パネルを開き、「 編集 ' ボタン:

その後 ' 環境変数の編集 」ウィンドウが画面に表示されます。 「 新しい 」ボタンをクリックして、コピーした Tesseract インストール ディレクトリ パスをここに貼り付けます。最後に、「 わかった ' ボタン:

ステップ 6: Tesseract のインストールを確認する

Tesseract のインストールを確認するには、「」を検索して Windows コマンド プロンプトを開きます。 コマンド・プロンプト ' の中に ' 起動 」 メニュー:

提供されたコマンドを使用して、Tesseract のバージョンをチェックアウトします。

> テッセラクト - バージョン

以下の出力は、Tesseract バージョンが正常にインストールされたことを示しています。 v5.2.0 」 Windows の場合:

WindowsでTesseractを使用する方法を確認するために先に進みましょう.

Windows で Tesseract を使用するには?

Tesseract は、手書き文字を読み取ったり、写真からテキストを抽出したりするために使用されます。それがどのように機能するか見てみましょう:

ステップ 1: 画像を選択

テキストを抽出する画像を選択します。私たちが選んだように」 1.png 」:

ステップ 2: 画像からテキストを抽出する

CMDが開かれたら。 「を活用する CD 」コマンドを使用して、イメージが保存されているディレクトリを変更します。次に、「 テッセラクト ” コマンドを実行し、指定したイメージ ファイル名を定義します “ 1.png 」。 「 文章 」パラメータは、出力ファイルの名前を示しています。

> CD C:\Users\anuma\OneDrive\Pictures\Saved Pictures
> テッセラクト 1 .png '文章'

ステップ 3: テキスト抽出の検証

テキストの抽出を確認するには、画像ファイルが存在するディレクトリに移動します。出力ファイル「 文章 」もここに保存されます。出力ファイルをダブルクリックして、tesseract が画像からテキストを抽出したかどうかを確認します。

Tesseract コマンド ライン ツールを使用して、テキストの抽出に成功したことがわかります。

Windows に Tesseract をインストールして使用する手法を示しました。

結論

Tesseract を Windows にインストールするには、Tesseract インストーラーをダウンロードする必要があります。この目的のために、この記事の最初のセッションに従ってください。次に、Path 環境変数を設定して、Windows コマンド プロンプトから Tesseract を使用およびアクセスします。次に、画像ファイルを選択し、「 テセラクト 」コマンドを使用して、画像からテキストを認識して抽出します。ここでは、「 テセラクト 」ウィンドウで。