IMAGE TO TEXT CONVERTERは、画像内のテキストを抽出してテキストデータに変換できるWebサービスです。精度はなかなかのものだと思います。
ユーザー登録なしで利用できますが、読み込むファイルは15MBまでという制限があります。無料のユーザー登録をすると上限が200MBまで増えます。15MBもあれば十分ではありますね。
また、通常はWord(docx)/Excel(xlsx)/プレーンテキスト(txt)への変換が可能ですが、ユーザー登録でPDFや旧Word(doc)/Excel(xls)形式へ対応できます。
IMAGE TO TEXT CONVERTERの使い方
IMAGE TO TEXT CONVERTERへアクセスして、「1 STEP – Upload image」で画像を選択します。
「2 STEP – Select language and output format」で言語とファイル形式を選択します。
[CONVERT]をクリックするとテキストが抽出されます。
IMAGE TO TEXT CONVERTERを使って画像内のテキストを抽出してみた
試しに以下の画像を使って変換してみました。
文章内容は以下の通りです。
ACF6.2.7以降からthe_field()やthe_sub_field()でフィールドの内容を出力する際に、wp_kses()経由でHTMLエスケープ処理が実施されるように仕様変更されました。
これにより、iframeタグやscriptタグなどを含めて出力していた場合、エスケープされて正常に表示されなくなります。
エスケープ処理によってHTMLが除去されている箇所がある場合は、以下のような警告が管理画面に表示されているかと思います。[詳細を表示]をクリックすると、該当箇所を確認できます。
抽出されたテキストは以下の通り。
ACF6.2.7以降からthe_field()やthe_sub_fie!d()でフイールドの内容を出力する際に、wp_kses()経由で HTMLエスケープ処理が実施されるように仕様変更されました。
これにより、frameタグやscriptタグなどを含めて出力していた場合、エスケープされて正常に表示さ れなくなります。
エスケープ処理によつてHTMLが除去されている箇所がある場合は、以下のような警告が管理画面に表 示されているかと思います。「詳細を表示」をクリックすると、該当箇所を確認できます。
“iframe”が”frame”になっているくらいで他はちゃんと抽出できてますね。あとは変なところに半角スペースが入るので、これがなくなるとうれしいなーと思います。
あとがき
無料で使えるWebサービスにしては精度はなかなか良いのではないでしょうか。
画像内からテキストを抽出したい時は、ぜひお役立てください。