1183_文字認識の新しい手法

　s-640エンコウのはなし.jpg
　—–—–—–

・日本語文字認識ソフト『読んde!!ココ』をずいぶん前に使ったことがありす。今もバージョンアップされているようです。

・オフィスプリンタにも PDFファイル、または DocuWorksファイルに、文字認識するか、しないかの設定があります。

・市販のソフトでは『読み取り革命』などがあり，「ＡＩで劇的に進化（読み取り精度の向上）」などと謳われていたりします。

　—–—–—–

　ボランティア活動『マルチメディアデイジー図書』の作成に関連して「読み取り革命」に代わる手法はないかと調べていて，

　　1「フォト」　　　　で『ひろしま昔ばなし』
　　2「Snipping Tool」で『涙の箱　ハン・ガン (著)』　
　　3. 　　〃　　　　　で『多面体の模型　ウェニンガー(著)』　

で簡単にテキストを取り出す事ができることがわかりました。

　—–—–—–

1「フォト」　　　　で『ひろしま昔ばなし』　（先頭図）

　　　・光学式文字認識（OCR）が強化され，日本語を含む160か国をサポートしているとのこと。検出したテキストをWebで検索する機能も追加されているようです。

　　（私が未習熟のためか）

　　・逆順になっている　とか
　　・「川」が「ル」になっている　など問題点は残っていますが、これだけの精度ならば十分使える…といった感じです。

　　フォト_逆順一部誤変換.pdf

　—–—–—–

2「Snipping Tool」で『涙の箱　ハン・ガン (著)』　

　　Snipping Tool_icon.JPG

　画像やpdfを表示したところで『窓+sift+s』を同時に押すと「snipping tool」が起動します。

　　　1. 範囲指定してスクリーンショットし
　　　2.「マークアップと共有」ボタンを押し
　　　3.「テキストアクション」を選びます。
　　　4. 全てのテキストをコピーして
　　　5. メモ帳あるいは秀丸などに貼りつけます。

　ボランティアでの次の取り組み課題だそうです。ページによってはpdfを-90度回転したり戻したりもありますが，日本語/英語/ハングル　混在していても一瞬でテキスト化して取り出すことができます。なんとかこの新たな手法で取り組めそうです。

　　涙の箱_韓江_Snipping Tool.JPG

☆ Snipping Tool を使えば，テキストのついていないpdfや，文字を含んだ画像あるいはウェブ画面などから，文字認識（OCR）して容易にテキストを取り出すことができるようになっています。

【 p.s.】「涙の箱」は88ページの本ですが1時間余りでテキスト化を完了しました。勿論全ての点検は必要ですが，これまでのOCRソフトからすれば驚くべき速さと正確さだと感じています。

　—–—–—–

3.「Snipping Tool」で『多面体の模型　ウェニンガー(著)』

　次の画像は，保存してあった「ウェニンガー№94 大20・12面体」のスキャン結果のpdfを表示し，snipping tool を用いて「スクショ＋テキストアクション」でクリップボードに保存された認識結果を秀丸に貼りつけただけのものです。完璧です！

　s-800 We94をsnip_to_text.jpg

【数学の話題】

投稿をさらに読み込む