約2年前(2018年)に、Web上でアカウントのいらないOCRに
ついてまとめましたが、(登録しなくても使えるという意味)
個人的には、その当時、わりと満足であったのですが、
今回(2020年)再度調べてみると、
なんとGoogleがすでにOCRを無料で使えるように
してくれてました。
ということで、その
OCRをやってみたので
そのいくつかの方法、やり方や
チップス(コツと応用ヒント)をまとめてみました。
(OCR→写真や画像の文字をテキスト化する)
以前のWeb上のOCRの説明;(応用方法とかもご参考に)
OCRの無料おすすめ,MacとWindowsでおすすめな物がみつかりました,アプリではなくオンラインOCRで読めない漢字にも応用できますしpdfでも使えます
使用環境
Macを中心にまとめてますが、
オンライン上のアプリなので、Windowsも問題ないです。
GoogleドキュメントでのOCRのやり方,方法
Googleの検索ページを開きます。
https://www.google.com/?hl=ja
図
右上の田みたいなアイコンをクリック(メニュー,縦横線で結ぶと田,棚の意味?)
図
ドライブ(Googleドライブ)をクリック
図
アカウント、
パスワードを入力しログインします。
ファイルサイズのMaxは実験してませんが、
5 PageのPDFで約3.9MBは問題なくテキストに変換できましたが
画像ファイルがGoogleドキュメントに作成されてませんでした。
(この場合はテキストのみ、結果のテキストは出てくる)
Googleドライブに、文字の書いてある、
画像を放り込みます。(ドラッグアンドドロップ、アップロード)
(著作権フリーの文庫本を使用。PNG又はPDFに変換,JPEGも可能)
(画像は正常位置でもいいですし、90度左回転でもOK,上が序文)
(縦書きもちゃんと認識してますし,横に寝た文字も変換してくれるようです)
図、図 (この2つのパターンは変換OK)
Googleドライブ上で
目的のファイルにマウスカーソルを合わせ
右クリックし
(Macのトラックパッド場合は control+クリック)
図
アプリで開く→Googleドキュメントを選択
図
そうすることで、OCR機能がはたらき、変換してくれます。
図
1枚の場合の結果は、画像ファイルが先にでてきて
その下にテキスト化された文書がでてきます。(上図)
Macのプレビューで複数ページのPDF作成方法
プレビューで画像ファイル全部読み込んで表示し
印刷でPDF保存を選択
コツは、PNGデーターをだいたい同じ大きさの
サイズに統一し全選択し、
一呼吸まってから、ファイルを開くでしょうか。
(時たま、一緒に開かない場合がある)
キャプチャの方法は「command+shift+4」で範囲指定。
(キャプチャ,スクリーンショットの方法,内部リンク)
(スマホ写真のサイズダウン,サイズ容量を小さくする方法,保存場所
の所で,図で簡単に説明)
ファイルを5つ選択し
command+O (オー) または ダブルクリック
図
5つのバラバラなファイルがひとつのファイルとして認識
図
ファイル プリントを選択
図
左下のPDFをクリックし
PDFとして保存を選びタイトル名をつけ保存する
図、図、図
出来上がったPDFファイル
これをGoogleドライブにアップロードして
図
OCRテキストに変換作業を行います。
(上述;右クリック アプリで開く Googleドキュメント)
(このPDFの場合はテキストのみになります、画像は別ファイル)
認識結果の修正、手直し方法,Macのmi使用にて
読み込んだテキスト文字はほぼ一行の長い文書となっていて
読みづらく手直し(間違いの訂正)作業がやりにくいです。
ということで、
改行時にでる半角スペースを、
テキストエディタの「mi」を使って
改行コードに変え、一気に改行します。(全置換を使用)
このような連続した文書が半角スペースごとに改行された形になります。
図 最初の結果
一つの連なった文(テキスト)
銀河鉄道の夜
宮沢賢治
一、午后の授業
「ではみなさんは、そういうふうに川だと云われたり、 *の流れたあとだと云われたりしていたこのぼんやり と白いものがほんとうは何かご承知ですか。」先生は、 黒板に吊した大きな黒い星座の図の、上から下へ白く けぶった銀河帯のようなところを指しながら、みんな に問をかけました。 「カムパネルラが手をあげました。それから四五人手 をあげました。ジョバンニも手をあげようとして、急
云われたり、 *の流れた
の「、」の後ろに半角スペースがありこれをコピーします
図
次に「検索 置換」を選び
先程の半角スペースを上の枠にコピーします
図
次に置換文字列の所に
以下の部分
(赤に反転している2行を選択しそこを,command+C,でコピー)
し
置換文字列にペーストする(command+v)
図
次に全てを選んで、「全てを置換」をクリックする
図
そうすることで
改行が行われ、テキスト文書が見やすくなります。
(この方法は1行間隔にしてますが、行間なしもできます)
図、図
テキストエディタ(mi)はとても便利なので
おすすめです。(作者さま、ありがとう)
(miは私の好みで、旧バージョンを使用してます。2.1.12r4),(自己責任)
Mac用テキストエディタmi(旧ミミカキエディット)をSimpleText風(OS9)に表示させる方法
縦書き文への修正時対応の工夫について,Mac
Googleドキュメントは縦書きに正式には
対応してなく、
調べてみると、
いくつかの工夫があるようなのですが、
とりあえず、
私の工夫した方法を書いてみます。(Mac)
修正方法;(BJ方式)
次にオリジナル画像を左に90度回転させ、
プレビューで画像文字をみながら、
右にテキスト文を並べて、修正作業を行います。
(Deskovery3を定規のように使用)
図
これが一番簡単ですね。;別名「BJ式寝た文字読み」(仮),(^ ^;)
以前紹介した、Deskovery3(旧Windowshade)(注意1*)を使うと
定規の様に使えますので、
わりと重宝すると思います。(目線の移動が楽になる)
(SierraからたしかMojaveまでは対応、対応Verにご注意ください)
(シェアウエアです。有料。)
行がずれたら、PDFかテキストをスクロールさせ調整します。
行の当て方(ズレの調整)はマニュアル操作になります。
フォントサイズの調整がうまくいくとズレが小さくなります。
(注意1*)
Deskoveryは私の好みで使用してるだけで、
他にも使えるツールがあって、
Free Rulerも同様に使えると思います。(すこし太い、、)
https://apps.apple.com/us/app/free-ruler/id1483172210
Deskoveryの説明(内部リンク)
MacでWindowshadeXを使いたい場合はDeskoveryが一応使えます,設定方法まで
Googleドキュメント,と以前のWeb上OCRを比較すると
今回のOCRの実験結果ですが、
今回、使用した画像でのOCRでは、
圧倒的にGoogleドキュメントが勝ってますね。
100%ではないですが、ほぼすべてを変換してます。
(状態がよいなら、ミスはルビ程度とその周りの改行に影響)
(改行は半角スペースとなっている様です)
ふりがな(ルビ)の扱いが両者で違いがある感じで、
Googleはルビを小文字化してますが、
位置がおかしなところに出現したり
その場所での改行がすこし変になります。(miで置換すると)
又、Googleは変換しない場合もある感じです。(今回のテストにて)
対応方法の一つとしては、OCRの前に
最初にルビをカットして、
OCRにかけるという方法もあり
これが、無難な選択肢かなと思います。
(画像編集で削ってしまう。お好みで)
あと、汚れに対してもGoogleが強いです。
背景に色の付いた文字も普通に認識、変換してます。
ルビを手抜きカット(欠損)した所はGoogleドキュメントは無視しますけど、
以前のWebの物は「国」と変換してます。
(四角い漢字として認識しようとしている。)
誤変換率もGoogleが低く以前紹介したWeb版の物は
おかしな変換になることがあります。
もともと今回テストした素材は状態が
非常にいいので、Googleドキュメントの認識率の
高さが際立ちます。
両者の欠点として、
漢字1文字の場合は認識しませんでした。(2020年6月)
しかし、その文字を画像編集で1行に変換すると認識します。
図 こちらは認識せず
図 こちらは認識します(これは以前のWeb版も同じ)
また、Googeは文字に色をつけているので
この意味はなんなのかが、よくわかりませんでした。
(どなたか教えていただくとうれしいかもです。)
(もしかして、意味の分類、区分け??)
それから、あと、両者とも、
「・・・・・・」
を変換できてません(2020年6月時点)
この「・・・」の意味は
三点リーダー;
無音、余韻、考えている様子、沈黙、などいろんな使い方があり
手塚先生の漫画にあった記憶と
当然ながら、ジョジョにもよくありますし
ゴルゴ13にも当然あったかと思います。(←この場合はこわい意味・・・)
言葉になる前の情念(思い)ともいえばいいでしょうし
またそれぞれ各個人の感じ方の表現としても使えるかと。
(音楽の感じ方の違いみたいな・・・)
と、
私のブログは「・」の代わりにかってに「、」をよく使用してます。
(たぶんアニメの影響、、、)
参考;
三点リーダーとは一体なんでしょうか?「三点リーダ」
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1279185222
その他の画像の調整方法;(認識しやすくさせるために)
画像補正を使って、ハイライト、シャドウ、その他
コントラスト等を使って
機械にみやすくする方法とかもあり、
そのあたりは、アプリの相性などを
見極めながら試されてみてください。
(2階調化のあるアプリもあるが、、、)
図
他にも、
最適フォントサイズがあるようなのですが
それぞれのパソコンなどで
いくらか試されてみてください。
もと画像が良ければ、
大抵の物は変換してくれるように感じます。
(ただし要実験です。)
カメラ撮影で認識するのか
適当にパソコン上の文字をスマホのカメラで
撮影し
それをパソコンに送って、文字部分を適度に処理し
OCRをかけましたが、
普通に認識していました。
かなり使えると思います。
(注意点は手ブレと撮影状態で認識が変化します)
読めない漢字をスマホで撮影
それをメール等でパソコンに送り、
その部分の漢字の画像部分の切り取りを行い
Googleドキュメントでテキスト化し
それを
でGoogle検索したらもうよめますね。
読めない漢字の調べ方,PCとスマホで調べる方法
そのうち、
動画に連続的にうつっている文書などを
ニコニコみたいなように(数カ国向けに翻訳しながら)
字幕風に流して、
耳元でしゃべる装置の
発表ももうまじかな感じでしょうね。
図
前回の記事にもカメラ画像からOCRにかける方法とかも
書いてますので
工夫したことなどは同様に
使えると思いますので、
やり方の方を
参考にしてみてください;(OCR使うのはGoogleのほうがいいかと)
OCRの無料おすすめ,MacとWindowsでおすすめな物がみつかりました,アプリではなくオンラインOCRで読めない漢字にも応用できますしpdfでも使えます
雑感
別な画像でも試してみましたが、
まっすぐな文字に混ざった
ななめ文字も軽々認識していたのは
ちょっと驚きです。
(見えているところはほぼ変換している)
どういったアルゴリズムかはわかりませんが
人工知能AIすごいです。
実験に試した画像はこちらの物で
自己責任で使用されてください。
(ご対応ありがとうございました。)
>そして読んでいるところはこんな感じ。の上の黄色い文書画像です
(リンク切れ)
過度な期待は禁物
以前に比べかなりよくなってます。が
やはり人力による修正はまだまだ必要で
決まった形、
定型的な場所のルールが決まっていないと
コンピューターAIでは
対応できないことが起きがちで、
やはり人のチェック体制は、要所、要所で必要なかんじです。
ふりがな(ルビ)に関しては
以前よりはよくなっているようらしいのですが
もう一歩という感じでしょうか。
OMRとOCR,OCRを少しだけわかりやすく説明
あとがき
おまけとして
ジョジョファンなら絶対
これをやらないといけないと
いうことでやってみました。(^ ^;)
図
オラオラオラオラ (三・o・)三☆三(`ε´三)無駄無駄無駄無駄4文字でも、
ちゃんとテキストに変換してます(左下の「無駄」)、w(^ ^)w、さすがGoogleドキュメント。
近い将来、
OCRのAI技術はかなり進歩して
99%近く、画像を認識してくるのではないでしょうか、
それが、いいか、そうでないかは別として、
カメラがある所で文字表現すると
いつも誰かにみられている状態になるかもしれません?
そのうち脳のなかの電気信号をよみとられ
解析されると
ちょっといやかもしれません、、、
DeepL 翻訳AI装置(どこの言語かもわかりますし、方言も翻訳)
https://www.deepl.com/ja/home
関連記事
動画YouTubeやラジオやicレコーダー音声の文字起こし(テキスト化)のやり方をパソコン(Mac)でまとめ,止まる時の対処方法や,頭欠けを防ぐ方法や,そのアプリについてまとめました,文字起こしとは何?
本を自炊するいち方法;わりと早いです
デジカメで本や書籍の非破壊自炊のおすすめな方法を考えてやってみました,おすすめスタンド(書見台)と高透過ガラスについて,今回パナソニックの旧デジカメを使った自炊スキャンで裁断しないやり方です,SONYのデジカメテスト中→DSC-WX500
SONYのデジカメ(SONY DSC-WX500)で本(書籍)の非破壊自炊の結果です,本の自炊Part2,文書をわりときれいに撮るテクニックとか
コメントを残す