Tesseract.js で言語だけを指定して画像認識をしてみる

このページは何?

Tesseract.js で遊ぶのは楽しい。 ということで、 第一弾 (書店のレシートから ISBN を画像認識し、書籍のページへのリンクを生成する) および 第二弾 (紙の「お薬手帳」を画像認識してみる) に続く第三弾である。

今更という感じだが、今回は、言語以外は何もオプションを指定しない、素の状態の Tesseract.js での認識を試す (対応している言語のリストを見れば分かるが、Tesseract.js の売りの一つは多言語対応である)。 言語以外のオプションは指定しないし、前処理・後処理もしていないので、汎用の認識処理と言えるが、そのぶん、おそらく精度は落ちるだろう。

試しに日本語のツイートのスクリーンショットを認識させてみたら、元の文章はまともなのに、クサチュー語というかギャル文字というか、そんな感じになってしまった (一体何から日本語を学習したんですか、Tesseract さん……)。 だがしかし、大変便利なライブラリである。ありがたや〜。

実行してみる

  1. 言語を指定し ( )、
  2. 画像ファイルを選択し ()、
  3. そのファイルを ください。

どの程度まで画像認識で読めるのか、実験できます。

認識対象画像読み取り結果