画像内の文字をテキストに変換できるWebサービス「IMAGE TO TEXT CONVERTER – OCR ONLINE」

画像内の文字をテキストに変換できるWebサービス「IMAGE TO TEXT CONVERTER – OCR ONLINE」

画像内の文字をテキストに変換できるWebサービス「IMAGE TO TEXT CONVERTER – OCR ONLINE」

IMAGE TO TEXT CONVERTERは、画像内のテキストを抽出してテキストデータに変換できるWebサービスです。精度はなかなかのものだと思います。

ユーザー登録なしで利用できますが、読み込むファイルは15MBまでという制限があります。無料のユーザー登録をすると上限が200MBまで増えます。15MBもあれば十分ではありますね。

また、通常はWord(docx)/Excel(xlsx)/プレーンテキスト(txt)への変換が可能ですが、ユーザー登録でPDFや旧Word(doc)/Excel(xls)形式へ対応できます。

IMAGE TO TEXT CONVERTERの使い方

IMAGE TO TEXT CONVERTERへアクセスして、「1 STEP – Upload image」で画像を選択します。

「2 STEP – Select language and output format」で言語とファイル形式を選択します。

[CONVERT]をクリックするとテキストが抽出されます。

IMAGE TO TEXT CONVERTERを使って画像内のテキストを抽出してみた

試しに以下の画像を使って変換してみました。

文章内容は以下の通りです。

ACF6.2.7以降からthe_field()やthe_sub_field()でフィールドの内容を出力する際に、wp_kses()経由でHTMLエスケープ処理が実施されるように仕様変更されました。
これにより、iframeタグやscriptタグなどを含めて出力していた場合、エスケープされて正常に表示されなくなります。
エスケープ処理によってHTMLが除去されている箇所がある場合は、以下のような警告が管理画面に表示されているかと思います。[詳細を表示]をクリックすると、該当箇所を確認できます。

抽出されたテキストは以下の通り。

ACF6.2.7以降からthe_field()やthe_sub_fie!d()でフイールドの内容を出力する際に、wp_kses()経由で HTMLエスケープ処理が実施されるように仕様変更されました。 
これにより、frameタグやscriptタグなどを含めて出力していた場合、エスケープされて正常に表示さ れなくなります。 
エスケープ処理によつてHTMLが除去されている箇所がある場合は、以下のような警告が管理画面に表 示されているかと思います。「詳細を表示」をクリックすると、該当箇所を確認できます。 

“iframe”が”frame”になっているくらいで他はちゃんと抽出できてますね。あとは変なところに半角スペースが入るので、これがなくなるとうれしいなーと思います。

あとがき

無料で使えるWebサービスにしては精度はなかなか良いのではないでしょうか。

画像内からテキストを抽出したい時は、ぜひお役立てください。

この記事が気に入ったら
いいね!してね♪

Twitter で

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です