OCRとは、「Optical Character Recognition」の略で、光学的文字認識を指します。印刷物やビットマップの画像から、文字を認識し、テキストとして取り出すことで、文章が編集可能になるなど便利な技術です。以前は専用のソフトが必要でしたが、最近は「ocrad.js」を使ってブラウザ上でもできるようになりました。
サンプルは、jsdoitで公開されているものを使わせていただきました。
使い方:画像を下の「画像ファイルをここにドラッグしてください」にドラッグします。すると画面にドラッグした画像とその下にサイズ調整用のボタンが現れます。整形したところで、「画像文字を文字に変換」ボタンをクリックすると、「変換結果」にテキストが表示されます。
次の文字画像(ヒラギノ角ゴPro 20pt 行間30pt)で試したところ、うまくテキストが取り出せました。

※追記:うまく変換できない場合は、縮小や拡大、トリミングをやり直して変換を繰り返すとうまくいくことがあります。
画像から文字を抜き出す
画像確認
| |