1183_文字認識の新しい手法

 s-640エンコウのはなし.jpg
 —–—–—–

・日本語文字認識ソフト『読んde!!ココ』をずいぶん前に使ったことがありす。今もバージョンアップされているようです。

・オフィスプリンタにも PDFファイル、または DocuWorksファイルに、文字認識するか、しないかの設定があります。

・市販のソフトでは『読み取り革命』などがあり,「AIで劇的に進化(読み取り精度の向上)」などと謳われていたりします。

 —–—–—–

 ボランティア活動『マルチメディアデイジー図書』の作成に関連して「読み取り革命」に代わる手法はないかと調べていて,

  1「フォト」    で 『ひろしま昔ばなし』
  2「Snipping Tool」 で 『涙の箱 ハン・ガン (著)』 
  3.   〃     で 『多面体の模型 ウェニンガー(著)』 

で簡単にテキストを取り出す事ができることがわかりました。

 —–—–—–

1「フォト」    で 『ひろしま昔ばなし』 (先頭図)

   ・光学式文字認識(OCR)が強化され,日本語を含む160か国をサポートしているとのこと。検出したテキストをWebで検索する機能も追加されているようです。

  (私が未習熟のためか)

  ・逆順になっている とか
  ・「川」が「ル」になっている など問題点は残っていますが、これだけの精度ならば十分使える…といった感じです。

  フォト_逆順一部誤変換.pdf

http://yamamath.org/wp-content/uploads/2026/03/フォト_逆順一部誤変換.pdf

 —–—–—–

2「Snipping Tool」 で 『涙の箱 ハン・ガン (著)』 

  Snipping Tool_icon.JPG

 画像やpdfを表示したところで『窓+sift+s』を同時に押すと「snipping tool」が起動します。

   1. 範囲指定してスクリーンショットし
   2.「マークアップと共有」ボタンを押し
   3.「テキストアクション」を選びます。
   4. 全てのテキストをコピーして
   5. メモ帳あるいは秀丸などに貼りつけます。

 ボランティアでの次の取り組み課題だそうです。ページによってはpdfを-90度回転したり戻したりもありますが,日本語/英語/ハングル 混在していても一瞬でテキスト化して取り出すことができます。なんとかこの新たな手法で取り組めそうです。

  涙の箱_韓江_Snipping Tool.JPG

☆ Snipping Tool を使えば,テキストのついていないpdfや,文字を含んだ画像あるいはウェブ画面などから,文字認識(OCR)して容易にテキストを取り出すことができるようになっています。

【 p.s.】「涙の箱」は88ページの本ですが1時間余りでテキスト化を完了しました。勿論全ての点検は必要ですが,これまでのOCRソフトからすれば驚くべき速さと正確さだと感じています。

 —–—–—–

3.「Snipping Tool」 で 『多面体の模型 ウェニンガー(著)』

 次の画像は,保存してあった「ウェニンガー№94 大20・12面体」のスキャン結果のpdfを表示し,snipping tool を用いて「スクショ+テキストアクション」でクリップボードに保存された認識結果を秀丸に貼りつけただけのものです。完璧です!

 s-800 We94をsnip_to_text.jpg

【数学の話題】