OCRとは?をわかりやすく説明しフリーアプリソフトで無料のGoogleドキュメントを使ってMacでOCRの工夫,スマホやカメラを使ったやり方やできないときの応用編と連続PDFの作成と処理の方法をまとめてみました

スポンサードリンク


約2年前(2018年)に、Web上でアカウントのいらないOCR
ついてまとめましたが、(登録しなくても使えるという意味)

個人的には、その当時、わりと満足であったのですが、

今回(2020年)再度調べてみると、
なんとGoogleがすでにOCRを無料で使えるように
してくれてました。


ということで、その


「Googleドキュメント」を使って

OCRをやってみたので

そのいくつかの方法、やり方や
チップス(コツと応用ヒント)をまとめてみました。
(OCR→写真や画像の文字をテキスト化する)



以前のWeb上のOCRのURL
ttps://www.onlineocr.net/


以前のWeb上のOCRの説明;(応用方法とかもご参考に)

OCRの無料おすすめ,MacとWindowsでおすすめな物がみつかりました,アプリではなくオンラインOCRで読めない漢字にも応用できますしpdfでも使えます





スポンサードリンク







使用環境





MacBook Pro Retina, 15-inch, Mid 2015
macOS Sierra 10.12.6

Google Chrome (ブラウザー)

Googleドキュメント+Googleドライブ



Googleのアカウントがあれば使えます。

Googleのアカウントはすでに作成されている所からの説明です。




Macを中心にまとめてますが、
オンライン上のアプリなので、Windowsも問題ないです。



GoogleドキュメントでのOCRのやり方,方法





Googleの検索ページを開きます。
https://www.google.com/?hl=ja



右上の田みたいなアイコンをクリック(メニュー,縦横線で結ぶと田,棚の意味?)



ドライブ(Googleドライブ)をクリック




アカウント、
パスワードを入力しログインします。




使用可能な画像の種類は
JPEG、PNG、GIF、PDF(複数ページ可能,以下参照)
 (私のほうではGIFのみ未テスト)


ファイルサイズのMaxは実験してませんが、
5 PageのPDFで約3.9MBは問題なくテキストに変換できましたが
画像ファイルがGoogleドキュメントに作成されてませんでした。
(この場合はテキストのみ、結果のテキストは出てくる)


調べた範囲では2MB以下と書かれた所が多いようですが、
かなりのページを扱えるという話はあります。(要実験)

Macのプレビューで作成したPDFです、5 page(以下にも説明)

容量は解像度を変えると小さくも出来ます(実験中)
(たぶん最適フォントとフォントサイズがあるかもです、なかったらすごい)


MacのテキストエディットでのPDF作成は若干問題あり。(たぶん)

今回のデーターではWord(Win)のPDF作成では、なぜか
テキスト変換できませんでした。(要実験,実験途中)



Googleドライブに、文字の書いてある、
画像を放り込みます。(ドラッグアンドドロップ、アップロード)

(著作権フリーの文庫本を使用。PNG又はPDFに変換,JPEGも可能)
(画像は正常位置でもいいですし、90度左回転でもOK,上が序文)
(縦書きもちゃんと認識してますし,横に寝た文字も変換してくれるようです)
図、図 (この2つのパターンは変換OK)





Googleドライブ上で
目的のファイルにマウスカーソルを合わせ
右クリックし
(Macのトラックパッド場合は control+クリック)




アプリで開く→Googleドキュメントを選択




そうすることで、OCR機能がはたらき、変換してくれます。




1枚の場合の結果は、画像ファイルが先にでてきて
その下にテキスト化された文書がでてきます。(上図)



できない場合で、うまくいかない時の対処方法;


Macの場合、必ずドライブ側から
右クリックでGoogleドキュメントを選ばないと動作しません。

(2020年6月時点,Sierra 10.12.6)



間違っても、Googleドキュメント側から
画像ファイルを開かないことです。(←結構はまります。)



上でも述べましたが、
同じPNGデーターを
Windows10のWordでPDF作成をした
場合は、何故かうまくいきませんでした。(?)

まだよく原因や理由はわかりませんが、
ここは時間ができたときにでも検証予定
ということで、ご了承ください。
(どなたか、報告いただけると嬉しいかもです)




Macのプレビューで複数ページのPDF作成方法




プレビューで画像ファイル全部読み込んで表示し
印刷でPDF保存を選択

コツは、PNGデーターをだいたい同じ大きさの
サイズに統一し全選択し、
一呼吸まってから、ファイルを開くでしょうか。
(時たま、一緒に開かない場合がある)

キャプチャの方法は「command+shift+4」で範囲指定。
(キャプチャ,スクリーンショットの方法,内部リンク)
(スマホ写真のサイズダウン,サイズ容量を小さくする方法,保存場所
の所で,図で簡単に説明)



ファイルを5つ選択し
command+O (オー) または ダブルクリック



5つのバラバラなファイルがひとつのファイルとして認識



ファイル プリントを選択




左下のPDFをクリックし
PDFとして保存を選びタイトル名をつけ保存する
図、図、図







出来上がったPDFファイル

これをGoogleドライブにアップロードして





OCRテキストに変換作業を行います。
(上述;右クリック アプリで開く Googleドキュメント)
(このPDFの場合はテキストのみになります、画像は別ファイル)



認識結果の修正、手直し方法,Macのmi使用にて




読み込んだテキスト文字はほぼ一行の長い文書となっていて
読みづらく手直し(間違いの訂正)作業がやりにくいです。


ということで、
改行時にでる半角スペースを、
テキストエディタの「mi」を使って
改行コードに変え、一気に改行します。(全置換を使用)
このような連続した文書が半角スペースごとに改行された形になります。
図 最初の結果




miを起動して、そこにGoogleドキュメントで
変換の終わったテキストをコピーします。




一つの連なった文(テキスト)

銀河鉄道の夜
宮沢賢治
一、午后の授業
「ではみなさんは、そういうふうに川だと云われたり、 *の流れたあとだと云われたりしていたこのぼんやり と白いものがほんとうは何かご承知ですか。」先生は、 黒板に吊した大きな黒い星座の図の、上から下へ白く けぶった銀河帯のようなところを指しながら、みんな に問をかけました。 「カムパネルラが手をあげました。それから四五人手 をあげました。ジョバンニも手をあげようとして、急



云われたり、 *の流れた

の「、」の後ろに半角スペースがありこれをコピーします




次に「検索 置換」を選び
先程の半角スペースを上の枠にコピーします



次に置換文字列の所に
以下の部分
(赤に反転している2行を選択しそこを,command+C,でコピー)

置換文字列にペーストする(command+v)





次に全てを選んで、「全てを置換」をクリックする





そうすることで
改行が行われ、テキスト文書が見やすくなります。
(この方法は1行間隔にしてますが、行間なしもできます)
図、図






テキストエディタ(mi)はとても便利なので
おすすめです。(作者さま、ありがとう)
(miは私の好みで、旧バージョンを使用してます。2.1.12r4),(自己責任)

Mac用テキストエディタmi(旧ミミカキエディット)をSimpleText風(OS9)に表示させる方法







縦書き文への修正時対応の工夫について,Mac




Googleドキュメントは縦書きに正式には
対応してなく、

調べてみると、
いくつかの工夫があるようなのですが、


とりあえず、
私の工夫した方法を書いてみます。(Mac)


修正方法;(BJ方式)


次にオリジナル画像を左に90度回転させ、
プレビューで画像文字をみながら、

右にテキスト文を並べて、修正作業を行います。
(Deskovery3を定規のように使用)




これが一番簡単ですね。;別名「BJ式寝た文字読み」(仮),(^ ^;)




以前紹介した、Deskovery3(旧Windowshade)(注意1*)を使うと
定規の様に使えますので、


わりと重宝すると思います。(目線の移動が楽になる)
(SierraからたしかMojaveまでは対応、対応Verにご注意ください)
(シェアウエアです。有料。)


行がずれたら、PDFかテキストをスクロールさせ調整します。
行の当て方(ズレの調整)はマニュアル操作になります。

フォントサイズの調整がうまくいくとズレが小さくなります。


(注意1*)
Deskoveryは私の好みで使用してるだけで、
他にも使えるツールがあって、


Free Rulerも同様に使えると思います。(すこし太い、、)
https://apps.apple.com/us/app/free-ruler/id1483172210

Free Rulerの説明と定規、ものさしについて(内部リンク)


Deskoveryの説明(内部リンク)

MacでWindowshadeXを使いたい場合はDeskoveryが一応使えます,設定方法まで





スポンサードリンク

Googleドキュメント,と以前のWeb上OCRを比較すると




今回のOCRの実験結果ですが、

Googleドキュメントの勝ちです。(ほぼ圧勝)


今回、使用した画像でのOCRでは、
圧倒的にGoogleドキュメントが勝ってますね。


100%ではないですが、ほぼすべてを変換してます。
(状態がよいなら、ミスはルビ程度とその周りの改行に影響)
(改行は半角スペースとなっている様です)

ふりがな(ルビ)の扱いが両者で違いがある感じで、

Googleはルビを小文字化してますが、
位置がおかしなところに出現したり
その場所での改行がすこし変になります。(miで置換すると)

又、Googleは変換しない場合もある感じです。(今回のテストにて)


対応方法の一つとしては、OCRの前に
最初にルビをカットして、
OCRにかけるという方法もあり
これが、無難な選択肢かなと思います。
(画像編集で削ってしまう。お好みで)



あと、汚れに対してもGoogleが強いです。
背景に色の付いた文字も普通に認識、変換してます。

ルビを手抜きカット(欠損)した所はGoogleドキュメントは無視しますけど、
以前のWebの物は「国」と変換してます。
(四角い漢字として認識しようとしている。)


誤変換率もGoogleが低く以前紹介したWeb版の物は
おかしな変換になることがあります。

もともと今回テストした素材は状態が
非常にいいので、Googleドキュメントの認識率の
高さが際立ちます。


両者の欠点として、
漢字1文字の場合は認識しませんでした。(2020年6月)
しかし、その文字を画像編集で1行に変換すると認識します。
図 こちらは認識せず


図 こちらは認識します(これは以前のWeb版も同じ)





また、Googeは文字に色をつけているので
この意味はなんなのかが、よくわかりませんでした。
(どなたか教えていただくとうれしいかもです。)
(もしかして、意味の分類、区分け??)



それから、あと、両者とも、

「・・・・・・」

を変換できてません(2020年6月時点)

この「・・・」の意味は

三点リーダー;
無音、余韻、考えている様子、沈黙、などいろんな使い方があり


手塚先生の漫画にあった記憶と
当然ながら、ジョジョにもよくありますし
ゴルゴ13にも当然あったかと思います。(←この場合はこわい意味・・・)


言葉になる前の情念(思い)ともいえばいいでしょうし
またそれぞれ各個人の感じ方の表現としても使えるかと。
(音楽の感じ方の違いみたいな・・・)

と、
私のブログは「・」の代わりにかってに「、」をよく使用してます。
(たぶんアニメの影響、、、)


参考;

三点リーダーとは一体なんでしょうか?「三点リーダ」
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1279185222






その他の画像の調整方法;(認識しやすくさせるために)

画像補正を使って、ハイライト、シャドウ、その他
コントラスト等を使って

機械にみやすくする方法とかもあり、
そのあたりは、アプリの相性などを

見極めながら試されてみてください。
(2階調化のあるアプリもあるが、、、)





他にも、
最適フォントサイズがあるようなのですが
それぞれのパソコンなどで

いくらか試されてみてください。

もと画像が良ければ、
大抵の物は変換してくれるように感じます。
(ただし要実験です。)



カメラ撮影で認識するのか




適当にパソコン上の文字をスマホのカメラで
撮影し

それをパソコンに送って、文字部分を適度に処理し
OCRをかけましたが、

普通に認識していました。
かなり使えると思います。
(注意点は手ブレと撮影状態で認識が変化します)




読めない漢字をスマホで撮影
それをメール等でパソコンに送り、

その部分の漢字の画像部分の切り取りを行い

Googleドキュメントでテキスト化し
それを

「読めない漢字」+読み


でGoogle検索したらもうよめますね。

読めない漢字の調べ方,PCとスマホで調べる方法




そのうち、
動画に連続的にうつっている文書などを
ニコニコみたいなように(数カ国向けに翻訳しながら)

字幕風に流して、
耳元でしゃべる装置の
発表ももうまじかな感じでしょうね。





前回の記事にもカメラ画像からOCRにかける方法とかも
書いてますので

工夫したことなどは同様に
使えると思いますので、


やり方の方を
参考にしてみてください;(OCR使うのはGoogleのほうがいいかと)

OCRの無料おすすめ,MacとWindowsでおすすめな物がみつかりました,アプリではなくオンラインOCRで読めない漢字にも応用できますしpdfでも使えます





雑感




別な画像でも試してみましたが、

まっすぐな文字に混ざった
ななめ文字も軽々認識していたのは
ちょっと驚きです。
(見えているところはほぼ変換している)

どういったアルゴリズムかはわかりませんが
人工知能AIすごいです。


実験に試した画像はこちらの物で
自己責任で使用されてください。
(ご対応ありがとうございました。)

>そして読んでいるところはこんな感じ。の上の黄色い文書画像です
ttp://blog.8th-wonder.biz/?p=1272




過度な期待は禁物




以前に比べかなりよくなってます。が

やはり人力による修正はまだまだ必要で

決まった形、
定型的な場所のルールが決まっていないと

コンピューターAIでは
対応できないことが起きがちで、

やはり人のチェック体制は、要所、要所で必要なかんじです。

ふりがな(ルビ)に関しては
以前よりはよくなっているようらしいのですが
もう一歩という感じでしょうか。



OMRとOCR,OCRを少しだけわかりやすく説明





OMR マークシート形式、センター試験方式

OCR 文字を認識する、光学文字認識(読み取り装置とコンピューターのソフト)



   ■   
  ■ ■  
 ■■■
 ■   ■ 
■     ■

の文字をコンピューターがAと認識するには
ドットの縦軸、横軸の座標位置が黒につぶれているのを
読み取り、認識し、(ここまではOMRとほぼ一緒)

次に文字の
データーベースと照合して、「A」と判断するといえば
わかりやすいでしょうか。

今まではこのうような感じでしたが(たぶん)

これにAIによる判断が加わったのが
次世代のOCRなのかと思います。(たぶん)





あとがき




おまけとして
ジョジョファンなら絶対
これをやらないといけないと
いうことでやってみました。(^ ^;)




オラオラオラオラ (三・o・)三☆三(`ε´三)無駄無駄無駄無駄


4文字でも、
ちゃんとテキストに変換してます(左下の「無駄」)、w(^ ^)w、さすがGoogleドキュメント。


近い将来、
OCRのAI技術はかなり進歩して
99%近く、画像を認識してくるのではないでしょうか、


それが、いいか、そうでないかは別として、

カメラがある所で文字表現すると
いつも誰かにみられている状態になるかもしれません?


そのうち脳のなかの電気信号をよみとられ
解析されると
ちょっといやかもしれません、、、


「ロシア語でかんがえるんだ」 ファイヤーフォックス
  ブラウザーではありません


DeepL 翻訳AI装置(どこの言語かもわかりますし、方言も翻訳)
https://www.deepl.com/ja/home


関連記事

動画YouTubeやラジオやicレコーダー音声の文字起こし(テキスト化)のやり方をパソコン(Mac)でまとめ,止まる時の対処方法や,頭欠けを防ぐ方法や,そのアプリについてまとめました,文字起こしとは何?

スポンサードリンク



コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください