動画YouTubeやラジオやicレコーダー音声の文字起こし(テキスト化)のやり方をパソコン(Mac)でまとめ,止まる時の対処方法や,頭欠けを防ぐ方法や,そのアプリについてまとめました,文字起こしとは何?

ICレコーダーやその他の音声をキーボードで
入力し、文書として残したい場合、

今まではそれを聞きながらキーボードで
ひたすら打つということが一般的で、

キーボード入力作業をやったことがある方は
わかるかとおもいますが

その入力作業は結構大変で、

作業時間も実時間の数倍以上はかかり(約3から6倍)

さらに録音状態が悪く聞き取りにくかったりすると
さらに、時間がかかることになります。

そんな大変な作業をある程度自動化するアプリソフトが

Googleドキュメント

で、これは「素起こし」の部分を
スパコン(AI)が
自動的に変換してくれるアプリソフトの事です。

ということで、その音声変換のアプリ

「Googleドキュメント」の使い方をいくつか

まとめてみました。

スポンサードリンク

環境

MacBook Pro Retina, 15-inch, Mid 2015
macOS Sierra 10.12.6

音声認識に
Googleの「Googleドキュメント」を使います。

Google Chromeを使用

Windowsはステレオミキサーを使用するといいようで
音声認識の使用はオンラインネット上なので、環境をえらびません。

他に簡単な方法は入力マイクに向かって
別レコーダーを再生させるという使い方もあります。

Googleは文字起こし動画をYouTubeで規制してますので
そのような動画(文字起こし動画)を
Youtubeに公開する場合はご注意ください。
(やってはいけない事のようで、消えてしまうようです…)

だが、しかし、
文字起こしが必ず必要な方々もおられて、

耳の不自由な方のツールとして、とても重宝するようです。
　スマホの音声認識に話しかけ筆談ぽいことを
　したりする使い方もあります。

そのほかには、
会社内の会議録や個人的に必要情報をまとめる場合とかにも使えます。

使用前に準備するアプリ・ソフト

BlackHole　をインストール
LadioCast　をインストールします。

参考記事；

MacでSoundflowerが使えないインストールできない場合に代替アプリとして仮想オーディオデバイスの「BlackHole」がおすすめで一緒にLadioCastを入れるといいです,BlackHoleはオープンソースなのでEl CapitanからCatalinaにも対応しているそうです,High Sierra,Mojave

これらを使うことで、Macの内部音声を

「Googleドキュメント」に認識させることができます。(←重要！！)

上記セットアップが終了したら以下の説明に入ってみてください。

設定方法

システム環境設定(アプリケーションにあり) → サウンドをクリック
図、図

出力　BlackHole 16ch　を選択
図

入力も同じ様にBlackHoleを選択()
図

LadioCast(ミキサー)を起動
図

図のように
入力1 BlackHole　メインを選択
出力メイン内蔵出力

スピーカー音声は　お好みで調整(こちらが、聞くための音量)
(ここでの音量調整は外部スピーカー出力のみの調整)
図

標準のボリュームは上げておくこと(F11、←機種による)
図

設定は以上です。

Googleドキュメントを開く

Googleのアカウントは登録してある所からです。

ChromeでGoogleの検索ページを開きます。
https://www.google.com/?hl=ja
図

右上の田みたいなアイコンをクリック
図

Googleドキュメントをクリックし起動します。
図

ログイン画面で
アカウントの入力、パスワードの入力を行います。

ツールの 音声入力を選択(←ココがポイント！！)
図

マイクのアイコンが出てきます。
図

ここで、録音データーを再生。(ブラウザー上の音声でもOK,VLCもOK)

そして、すぐに
マイクをクリックし、赤に反転させると

音声が自動的にテキストに変換され
音声がテキストとして入力されていきます。
図

テキスト変換を止める場合は、もう一度
マイクのアイコンをクリック
図

または

入力面ブラウザー以外の場所をクリックすると
変換動作が止まります。

つまりGoogleドキュメントが最前面にないと
動作が行われないように設定されてます。
(バックグラウンドでは動かないよう設定されている)

テキスト変換時には以下のような表示も出たりします
(AI考え中….)
図

AI考え中
図

やり方、操作方法、は以上です。

変換が止まってしまう場合の対処方法

変換中に動きが止まってしまう場合があり、

主に点滅する縦棒マーク「Ｉ」(ポインター)が
でてきて、変換が行われない事が多いです。
(録音音声の状態でもかわります。)

ただし、
点滅する縦棒マーク「Ｉ」がでていても、
時々変換が開始することもあるので

止まっているのか、考えているのかの
判断は結構難しいので

点滅する縦棒マーク「Ｉ」(ポインター)がでたら
再生をとめ音声を約10秒ほど戻して(Macは←矢印1回が約5秒,2回で約10秒)

再度再生し
マイクボタンをクリックし変換を再開したほうが
早いと思います。

ただし、その部分はよく引っかかる場所なので

そこの部分だけ、音声変換を使わないほうがよいこともあります。
(部分カットする、そこは飛ばして　約3秒次の部分から開始)

そこはたぶんAIが苦手な部分な所のはずですので、
そのあたりは、マニュアル操作で
乗り切ってください。

(完全にAIに頼るにはまだまだ時間がかかるのかと、)。(2020年)
(だから、まだ仕事依頼があるような感じがします。)

音声の止め方はBT(Bluetooth)機器を使うとYoutubeなどは
背面で再生のon offをコントロール出来ます。
(BTスイッチ対応機器の場合)
(私のもっているBTはYoutube再生on offは可能,Mac)
図

認識出来ない場合の対処方法

AIとはいえ、個々人の喋り方によって
言葉の認識に違いがあり
うまく変換できる場合と出来ない場合があり

発音がしっかりしていて聞き取りやすい方は
このツールを使用するのに
むいてますが

滑舌の悪い方(AI向きでない方という意味)の
場合は認識率が極端に落ちますし、

全然AIの認識が働かない方もおられます。。(認識不可能)
(メロディー付き歌声はまだまだな感じです。実験ずみ)

それに加えて録音状態が悪かったり
ノイズや雑音がある場合なども当然認識率は下がります。

こういった場合は
イヤホンでその音声を自分で聞きながら、喋って

Googleドキュメントに認識させたほうが
いいのかもしれません。(二度手間か、？)
(キーボード入力よりしゃべるのがうまい方向け)

ただし、キーボードが得意なら
そのままキーボードで打ち込んだほうが
早いかもしれません。(P検1級とか)

実際やってみて、その時々で判断されてください。

変換が
無理だとおもったら、キーボードがいいと思います。

このアプリの有用な点は
少々変換が間違っていても

テキスト入力してくれる(素起こしが自動)という所に
そのアドバンテージがあります。

文字起こし、
やってみるとわかりますが、

最低でも2ないし3回は聞かないと(もっとかかる)
入力すらおぼつきません、入力が遅いともっとかかります。

(これで約3倍以上の時間で時給も下がる、)
(約1時間が、5から6時間かかる理由がこれです。。)

頭(最初の音声部分)がかけるときの対応

音声や動画を再生してから
Googleドキュメントの音声マイクを
クリックするので

どうしても頭(最初の音声部分)がすこし欠けます、

これを少しでも防ぎたい場合は
BT(BlueTooth)機器を使うと
少しはましになります。

私が以前購入したこの機種でも使えます。
図

Googleドキュメントは実行画面を最前列に
もってこないと、動きませんが

YoutubeはBTの再生ボタンで
背面(バックグラウンド)でもon offが出来ますので
図

Googleドキュメントのマイクスイッチを
クリックしたあとに

上記BTのスイッチをonにすると
頭欠けをかなりの確率で防げます。
(シークバーを最初にもってきて停止しておく事)

注意；

BT(Bluetooth)のスイッチがYoutubeの動画に対応している
のを確認する必要があります。

又、パソコンとかの相性等ご注意ください。

Youtubeは自分でアップした動画を使います。

あとは、変換が止まった時の
縦棒マーク「Ｉ」(ポインター)、出現時

BT(Bluetooth)停止ボタンが使えるため、
変換画面をみながらなので
使い勝手があがります。(おすすめ)

お持ちのBT機器でためされてみてください。

M70でも使えますが、スイッチがやや押しにくいです。

Volume up と down 同時押しが再生on offになります。(Mac)
それぞれお持ちの機種で試されてみてください。

これを使うと、再生ストップと再生がすこし楽になります。

参考；

Plantronics M70について使ってみたペアリング(接続方法),簡易説明書,ユーザーガイド(リンク)

スポンサードリンク

音声認識精度に関してと,精度を上げる工夫

AI音声認識で変換を行っているようですが
変換精度は100%ではなく
調べた範囲では約95%くらいとは書かれてましたが、(ネットの情報)
そんなにいいのか？と今の所、思ってますが、
結構間違いとかもあります。(特に録音状態が悪い場合)

あと、同音異義語的に変換したりもしますので

まだまだ、人の手(文字起こし)がかかります。

(もう少し、AIの音声認識精度のアップが期待される所でしょうか)

いくつかの工夫として；

騒音、雑音の少ない場所で録音する。

高性能マイクを使う。(指向性、無指向性の使い分け)

なるべく音のよいボイスレコーダーを使う。

音源はなるべく高音質のものを使う。

MP3よりはWAVのほうが認識率はよくなると推測。
(MP3も使えます。)

一人づつで喋ってもらう。(かぶってないほうがいい)

あとは音声アプリソフトなどで
ノイズ除去フィルターを使ったりする方法もあります。
(エフェクト、その他)

参考；(以下のアプリの応用で、そのことは書いてませんが機能はあります)(Audacity)

Macの録音アプリ,ある程度高音質で内部も外部も可能なソフト,フリーにこだわって書いてます,QuickTimeとAudacityとかボイスレコーダーとしても使えます(音声録音)

MacでMP3作成とAAC(m4a)作成方法 MacでWAVEからMP3とAACを作成するのにはAudacityが便利で読み込み書き出し出来ます

自分で喋って変換する場合、口述筆記

自分の声がAIにうまく認識され
おしゃべりが苦にならない方なら
わりと重宝すると思います。

設定方法は、

システム環境設定
図

サウンド
図

入力　内蔵マイク
図

Googleドキュメントを起動し
ツール
音声入力をクリックし
図

マイクをクリックしてパソコンに向かって話しかけます。(しゃべる)
図

以上です。

個人的に使った感じでは
なかなかの精度だと思います。(100%ではない)
(ゆっくりハキハキと喋るのがこつかと)

MacBook Proの場合、内蔵マイクが
ついてますので
マイクを購入しなくても使えます。

MacBook Proのマイクは、
左スピーカーの所にあるので、そこに向けてしゃべると認識しやすいです。

Mac Miniはマイクがオプション、USBマイクがおすすめかもです。

ただマイクがあったほうが、姿勢はよくなりますので
声も出しやすく、さらにマイクの性能で音質がよくなるので
もしマイクをおもちであれば、接続して使ったほうがいいです。

一人でしゃべる場合は「単一指向性」

多人数の会議では「無指向性」を選ぶほうがいいと思います。
(例外は人数分のマイクがある場合)

調べた感じではこのあたりのものがよさそうです。
(お好きなものを選ばれてください)

FIFINE K670 ヘッドホン端子付き！！(インピーダンスに注意),(単一指向性)
FIFINE USBマイクコンデンサーマイクイヤホン端子付きマイクスタンド高さ調節可能 ABタイプ USBケーブル付き単一指向性 Skype ライブ配信ゲーム実況 PC用 Windows Mac PS4対応 K670

別購入の、
「ポップガード」あみ(あみあみ)、
これを使うと余計な雑音がへるようです。

ヘッドセットのマイクも使えますが
音質的にはマイクがいいと思います。

参考；

モノラルヘッドセットとは?モノラルヘッドセットて必要なの?いらない?(モノラルヘッドセットとは?に罠のページがあるのでご注意を),おすすめヘッドセット

はなし言葉と文字について

はなし言葉を文字にすると
若干うまくいかない事が起きがちで

はなし言葉の場合、文書化するのに
向いてない喋り方があり

そういった音声のものを
仕事などで受けた場合
テキスト変換(文字起こし)にとても苦労します。

なるべく1人が喋っているものに
したほうが、無難で、

最低でも2人きりでのインタビューくらいまででしょうか、

最初から多人数の会議とか受けてやると
めちゃくちゃ時間がかかったり、

同時にしゃべる人が多い会議や、
議論で言葉の応酬を同時にしているものとかは
最悪かもです。(あたると悲惨)

そういった録音物では
お金に換算すると仕事量が噛み合わないかもしれません。
(時給が下がる、)

文字起こしとは何か?

一言でいうと、

言葉を文書にする。

　①言葉を文字にする。(テープ起こし、動画音をテキスト文へ)

他には、
　②印刷文書をテキスト文字にする。　OCR(光学的文字認識)

の2つがあり、

今回は①の言葉を文字にする方法ですね、

②の印刷文書のテキスト化ですが
　次のまとめとしたいかと思います。
　(追加記事が完成しましたので、末尾のリンクも参照してみてださい)

受けるお仕事の場合、、どこまで、、
　素起こし
　ケバ取り
　整文

あとがき

おそばせながら、
音声認識をつかってみました。

もうネットでは数年前より盛んに宣伝されていて、

私のほうはその存在じたいは、
知ってはいましたが

あまり使ってなかったかもです。

スマホの音声認識は
しゃべるメモ程度にしか考えてなかったのですが

先日落合さんの
ツイッターを拝見して

さすが、おしゃれな使い方をするなぁと思いながら見てました。

モノラルヘッドセットとは?モノラルヘッドセットて必要なの?いらない?(モノラルヘッドセットとは?に罠のページがあるのでご注意を),おすすめヘッドセット

の
「モノラルヘッドセットて必要なの?何ができるの?」の所です

これを見て、これは耳の不自由な方の必須ツールで
いろんな応用が可能であるのだな
と思い直し、

今回の記事作成となりました。

参考；
スマホのボイスレコーダーのデーターのパソコンへの取り込み方法

スマホで録音できるおすすめなアプリとパソコンへの取り込み方法とその使い方とMP3やAACへの変換方法

おまけ；ものと言葉について、雑談、、

物質があって文字が(も)あって、命名する人がいて、

初めて(?)物に名前がつきます。

「りんごのようなもの」が文字で「りんご」とかいて
これが同じ物であるというくくりができ名前がつく

りんごのようなもの
に
りんごと名前をつける、それから、

名詞、動詞、その他の表現を集めて言葉とし、

リンゴに関しての思いなどがわいて来ます。
(この思いはなんなのかと考えると、、、)→Apple信者参考？(超雑談、、)
言葉は思考の始まり、
フィーリングだけで生きられる、、、のか？

パソコンにキーボードで文字を入力した場合に初めて
パソコンは人が書いたテキスト文字として認識できるようになります

「リンゴ」
と

はパソコンにとっては意味が違い
「リンゴ」はテキスト文字
図

は画像として認識されてます。

画像の「リンゴ」は　パソコンにとって絵(模様)でしかないが
これを同じものとしては認識できない、
今の所、しかし、できつつある、いやできてる？、いやそのうち？

テキストの「リンゴ」と入力されることにより
リンゴ　に意味？がでてきて　コンピューターにいち、基準と分類ができる、、

こんな感じなのか？、、、(あとは落合さん達に丸投げ、)

基本はアスキーコードですかね。？

このあたりは、深掘りすると結構難しいかもです。。。

追記；句読点の入力に関して。

句読点の入力に関して。(Appleの音声認識)

このページの方の
ttps://soundability.tokyo/pc/20023/
ひびきさんの動画です

音声入力にて句読点が入力されてます。

動画がみられないときは
以下のリンクから
みてみてください。

ttps://twitter.com/gt_hibiki/status/1263824474635288582

まとめ、及びご報告ありがとうございました。(^ ^)

スポンサードリンク

動画YouTubeやラジオやicレコーダー音声の文字起こし(テキスト化)のやり方をパソコン(Mac)でまとめ,止まる時の対処方法や,頭欠けを防ぐ方法や,そのアプリについてまとめました,文字起こしとは何?