注目度の高いAI分野の中でも、特に技術の進化が顕著な音声認識AIは、業務効率の改善や生活スタイルの革新に不可欠なツールとなりつつあります。
民間企業だけではなく、公官庁や地方自治体でも続々と導入される中、自社での音声認識AIの導入を検討している方も多いのではないでしょうか。
この記事では、音声認識AIの仕組みや主な用途、導入する際のメリット・デメリット、最新の導入事例について解説します。
音声認識AIとは
音声認識は人間が話した言葉を文字へ変換する技術であり、これをAIによって拡張したものが「音声認識AI」です。
音声認識の開発の歴史は古く、1971年頃にスタートしています。しかし、1990年代までは日常生活で利用するレベルには至っておらず、2000年の大幅なアルゴリズムの改善により、急速に普及するようになりました。
その後、AI技術と組み合わせることにより、音声認識の技術はさらに進化し、スマホの普及によって「音声認識AI」としてより身近な存在となりました。たとえば、スマホの「Siri」や「Googleアシスタント」などが代表的な音声認識AIサービスです。
音声認識AIの仕組み
音声認識AIのサービスは多く存在するため、仕組みを理解したうえで導入することが重要です。ここでは、「従来の音声認識」と「AIの機械学習による音声認識」について解説します。
従来の音声認識
従来の音声認識は、「音響モデル」「言語モデル」「発音辞書」の3つの認識モデルを組み合わせ、音源からテキスト化する形式がとられていました。
具体的には、下記の5ステップで、音声認識が行われています。
- 音声入力:マイクなどで、発言者の音声を録音する
- 音響分析:認識しやすいデータに変換する
- 音素を特定:音響モデルが音の素である「音素」を特定する
- 単語に変換:言語モデルや発音辞書などを基に単語に変換する
- 文章を出力:変換された単語をテキストとして出力する
自然な日本語を作成するためには、膨大な音声データベースが必要です。しかし、従来の音声認識では音声データベースを作成する際に、人間が音声データを加工していました。そのため、ノイズの削除や適切な形へ変換するなどの手間がかかり、十分な音声データが収集できていませんでした。
AIの機械学習による音声認識
従来の音声認識のシステムに、AIのディープラーニング(深層学習)を導入することで、音声認識の精度は各段に向上しました。
具体的には、ステップ3の音素を特定していた「音響モデル」の代わりに、AIのディープラーニングが採用されています。AIの導入によって、人が行っていた音声データベース作りが簡単になり、大量のデータが取得できるようになりました。結果として、より精度の高い音声認識が実現しています。
また、近年では「音響モデル」だけではなく、「言語モデル」や「発音辞書」を一括で行う「End-to-Endモデル」も使用されるようになっています。人間の脳のように入力から出力まで一括で行うため、より認識精度の高い音声認識が可能です。ただし、処理速度が遅いなど、実用化における課題があります。
音声認識AIの主な用途
音声認識AIは、すでに幅広い分野で活用されています。ここでは、音声認識AIの主な用途として、下記6件をご紹介します。
コールセンターの顧客対応
音声認識AIは、コールセンターの「顧客認証」や「顧客対応」などに活用されています。
「顧客認証」では、音声による氏名・会員番号などの顧客情報の認証が可能です。オペレーターによる個人情報確認の時間を削減できます。
音声認識AIは認証だけではなく、簡単な「顧客対応」のシーンでも活用されています。顧客が入力した要望を認識し、適切な窓口やオペレーターへ電話をつなぐことが可能です。複数の窓口へ転送されるような状況を防ぎ、顧客のストレス軽減にもつながります。
議事録作成・文字起こし
音声認識AIを活用することで、入力された音声を別の言語へ翻訳することが可能です。リアルタイムに翻訳できることから、中には会議の議事録作成や字幕のように活用する企業も増えています。
英語や中国語だけではなく、さまざまな言語に対応しているサービスもあり、よりグローバルな翻訳が可能です。たとえば、「COTOHA Meeting Assist」というAI議事録自動作成ツールでは、最大12カ国の言語に対応しています。
議事録作成AIについては、こちらもあわせてご覧ください。
音声による文字入力
音声認識AIの活用方法として、音声の自動テキスト化サービスも注目されています。誤字脱字などをチェックする必要はあるものの、手動によるタイピングよりも作業時間を短縮できます。
たとえば、Windowsには「Windowsマーク」と「H」を同時に押すことでマイクを起動させ、音声入力を開始する機能があります。短いメールの文章作成などに有用です。
AIアシスタント
音声認識AIの技術は、AIアシスタントにも採用されています。たとえば、スマートフォンに搭載されているAIアシスト(SiriやGoogleアシスタント)やAmazonの音声サービス(Alexa)などです。
また、音声認識AIの進化により対話型AIとの会話が可能になり、テキストベースのチャットボットから、音声認識による対話へ移行するサービスも増えつつあります。
音声認証
音声によって本人確認を行う「音声認証」にも、音声認識AIは活用されています。声紋を事前に登録しておくことで、音声認識の際に、発言者を特定することが可能です。
主に、発言者の声紋をパスワードとして登録する認証手段として活用されています。短時間で認証できるだけではなく、セキュリティ面でも優れていることから注目されている認証方法です。
たとえば、NECの音声認証の場合、5秒間の音声データがあれば認証が可能で、認証精度は95%(*)と非常に高い精度を誇っています。
*出典:NEC
音声認識AIをビジネスに導入するメリット
音声認識AIをビジネスに導入するメリットは多くありますが、その中から3つのメリットをご紹介します。
業務効率化につながる
音声認識AIを導入する最大のメリットは、業務効率化につながる点です。たとえば、議事録の自動作成や会議の録音データの文字起こし、電話の入電内容をテキスト化などさまざまな分野に導入されており、作業時間の節約や業務効率化を実現しています。
作業時間の短縮は労働時間・環境の改善だけではなく、従来の作業を行っていたリソースをコア業務へまわすることもできます。
窓口対応を自動化できる
音声認識AIをコールセンターなどの窓口対応に導入することで、電話での問い合わせ対応の自動化にもつながります。
たとえば、カスタマーサポートなどを担当しているコールセンターの場合、音声認識AIを活用することで本人確認作業を自動化することができます。
また、「よくある質問」を音声認識AIに自動回答させることも可能です。オペレーターに対応してもらうまでの待ち時間を低減できるため、顧客満足度向上やオペレーターの人件費削減が期待できます。
ハンズフリー入力が可能になる
音声認識AIによって、ハンズフリーでの文字入力や機器の操作ができるようになる点もメリットです。
日常生活でAIアシスタントへ話しかけるほかに、製造業の現場でも活用が進んでいます。設定したワードを音声で入力することで、機器の操作が可能であるため、業務の効率化を実現することも可能です。
また、タブレットなどの操作が苦手なユーザーに対しては、使いやすさの改善にもつながります。
音声認識AIの課題やデメリット
非常に便利な音声認識AIですが、課題やデメリットもあります。ここでは、主な課題やデメリットとして下記4点を紹介します。
学習データの収集・個別チューニングが必要
音声認識AIを利用するためには、学習データの収集と個別のチューニングが必要です。
音声認識の精度を高めるためには、音声データをAIに学習させなければいけません。しかし、音声データは文章などと比較すると入手しづらく、学習データを十分に収集できないこともあります。専門用語などが多いなど特殊な状況で利用する場合、利用目的に合った音声データを別途収集しなければいけません。思わぬコストになってしまうこともあります。
また、話す人、地域、年代、性別によって、同じ言葉でも細かな違いが生じます。使用する話し言葉が一般的な標準語ではない場合、個別チューニングが必要です。一度チューニングするだけでなく、使用しながら微調整も必要となるため注意が必要です。
録音環境の整備が不可欠
録音環境を整えなければいけない点も音声認識AIのデメリットです。録音する環境によって雑音などが入ってしまうと、 本来テキスト化したかったデータ以外の音も文字起こししてしまうことがあります。不自然な日本語になってしまうため注意が必要です。
ノイズキャンセリング機能があるマイクを使用することや、雑音の入りにくい環境で音声を録音することで、この課題は解決できます。
標準語以外への認識精度が低い
音声認識AIの標準語の認識精度は、日々進化しています。ですが、それ以外の会話に対する認識精度は低い点が課題です。方言や略語、若者風の話し方などは、学習データが少ないため正しく認識できないこともあります。
利用するシーンに応じて、頻出単語の学習をさせなければいけません。ツールによっては、専門的な用語が登録された「発音辞書」を登録することで、認識精度を高めることもできます。ただ、特に特殊な言語の場合、学習データを自分で用意するよう求められることもあります。
発言者の識別機能は今後の技術向上に期待
音声認識システムの課題として、発言者の認識機能も挙げられます。初期段階の音声認識の場合、発言者の区別ができず、発言者の氏名などの情報はテキスト化されません。
発言者を認定する方法は、大きく分けて下記2点になります。
- 音声データから解析する方法
- 音声処理アルゴリズムで解析する方法
前者は社内会議の議事録作成時など特定の環境で有用です。社内環境の場合、事前に参加者の音声や声紋を登録できるため、簡単に発言者を識別できます。
音声処理アルゴリズムは、現在も技術開発が進められている分野であることから、今後の技術向上に期待が寄せられています。
音声認識AIの最新活用事例6選
既に幅広い業界で導入されていますが、その中でも特に注目を集めた活用事例として下記6件をご紹介します。
- AI文字起こしアプリによる議事録作成|人事院
- 障害福祉課の窓口に会話を字幕表示するディスプレイを設置|茨城県 取手市
- 保険会社の事故対応窓口へ導入|損保ジャパン
- 会議の議事録作成に活用|山形県 鶴岡市役所
- 入居者向け問い合わせ対応にボイスボットを導入|株式会社レオパレス21
- ラジオNIKKEI特別番組「AIガールと夏休み」|HEROZ株式会社
AI文字起こしアプリによる議事録作成|人事院
民間企業だけではなく、公官庁でも音声認識AIは活用されています。人事院では、2021年9月から音声認識AIを活用した文字起こしアプリを導入しています。主に、対面会議やWeb会議などの議事録を作成する際に活用されているそうです。
会議では専門用語が使われているため、AI会社が用意する専門分野の辞書を複数利用したり、頻出単語を登録したりすることで音声認識精度をアップさせています。
出典:内閣府資料
障害福祉課の窓口に会話を字幕表示するディスプレイを設置|茨城県 取手市
茨城県取手市の障害福祉課の窓口では、2023年6月から音声認識AIを利用したディスプレイが導入されました。会話をリアルタイムでテキスト化するシステムにより、窓口を訪れた利用者や職員が話した言葉を、透明ディスプレイに字幕として表示させることが可能です。
同窓口では手話通訳者が週1回対応していますが、それ以外の日程でも、聴覚障がい者や難聴者が気軽に相談できるようにすることを目的として導入したとのことです。
出典:PR TIMES
保険会社の事故対応窓口へ導入|損保ジャパン
損害保険ジャパン株式会社では、顧客との通話内容を音声認識AIによってリアルタイムでテキスト化するシステムを導入しています。これにより、顧客の要望を聞き漏らさず対応できるようになったとのことです。
他にも、損保ジャパンでは2020年3月から、コールセンターへお客様から電話があった際、問い合わせ内容ごとに適切な担当者へ振り分けるシステムも導入しています。
出典:損保ジャパン日本興亜
会議の議事録作成に活用|山形県 鶴岡市役所
山形県鶴岡市役所では、会議の議事録作成の際に音声認識AIを活用した文字起こし支援アプリを活用しています。インターネットに接続せずに利用可能で、セキュリティ面でも優れている点でも注目されています。
毎週実施する定例の議事録作成に使用しているため年会400回ほど使用され、年間1,230時間の業務効率化が見込まれているようです。
出典:PR TIMES
入居者向け問い合わせ対応にボイスボットを導入|株式会社レオパレス21
不動産賃貸事業者会社である株式会社レオパレス21では、入居者向け対応にボイスボットを導入しています。入居者からの電話での問い合わせ内容をテキスト化し、「よくある質問」など回答が存在する場合は、回答をテキスト化して読みあげて回答。状況に応じてオペレーターによる二次対応を実施しています。
架電が集中する時間帯でも顧客の疑問を解消できることや、24時間365日対応できるなど、顧客のニーズに合わせた迅速な対応が可能になったようです。
出典:株式会社レオパレス21
ラジオNIKKEI特別番組「AIガールと夏休み」|HEROZ株式会社
2023年8月11日に放送されたラジオ番組「AIガールと夏休み」では、音声認識AIを使ったトークが実演されました。パーソナリティの声優2人が、AIガール・かなでに、話しかけると自動でテキスト化されます。そのテキストを元にChatGPTが返答を作成するという企画でした。音声認識技術と音声合成技術を組み合わせることで、AIがより人間らしい対話をすることに成功しています。
同事例のように、顧客対応だけではなく、ドラマなどエンターテインメント分野からも期待されている技術です。
出典:PR TIMES
音声認識AIの将来性は?
AI技術の中でも将来性は特に明るい分野と考えられています。
議事録作成以外にも顧客対応、マーケティング活用などさまざまな事例が続々と登場しています。利用層の幅が広がっている点も注目されている理由です。民間企業だけではなく国や地方自治体でもサービスの導入が進んでいます。
現在の課題である「音声データ不足」についても、日々研究が進められています。特にCOVID-19の流行に伴い、オンラインミーティングが頻繁に行われるようになり、音声データの収集できる環境が整ってきているようです。数年で、大幅な技術の革新が見込まれ、さらなる活用が期待されている分野でもあります。
音声認識AIに関する疑問・Q&A
Q. 音声認識AIにはどのようなサービスがある?
音声認識AIのサービスは、大きく分けて下記の7点が挙げられます。
- 文字起こし
- 自動応答
- AIコンシェルジュ
- 翻訳
- セキュリティ
- 感情分析
特に議事録作成など、「文字起こし」機能は、大幅な業務効率化を実現しています。そのため、民間企業だけではなく公官庁でも導入されています。
一般ユーザーにも日常的に利用されているサービスは、「AIコンシェルジュ」です。スマホの普及により、AIコンシェルジュを使うシーンが増えています。スマホの操作だけではなく、「チケットを購入する」ような消費行動のサポートも行うなど、活躍の幅を拡大中です。
感情分析は一般的に感情認識AIが行っています。感情認識AIは色々な方法がありますが、発言者の音声から感情を分析することもできます。対話データから顧客の満足度などを分析することが可能です。消費者行動を分析するマーケティングにも活かせることから注目を集めているサービスです。
Q. 音声認識AIは、IT導入補助金の対象ですか?
一部の音声認識AIは、経済産業省の「IT導入補助金2023」の対象となります。IT導入補助金は、ITツールを導入しようとする自治体や民間企業などに、支給されます。最大450万円の補助金を受給することが可能です。(*)「業務効率化のために導入したい」と思うものの「初期費用がかかるため導入は難しい」と考えられている方は、ぜひ利用してみてください。
ITツールの要件により補助金は異なり、大きく分けてA類型、B類型の2種類があります。A類は下記の業務プロセスのうち1種類以上、B類は4種類以上を持っているソフトウェアが対象となっています。
- 顧客対応・販売支援
- 決済・債権債務・資金回収管理
- 供給・在庫・物流
- 会計・財務・経営
- 総務・人事・給与・労務・教育訓練・法務・情報システム
- その他業務固有のプロセス
- 汎用・自動化・分析ツール
A類型とB類型によって補助金は異なり、下記の通りとなっています。
補助金額 | |
---|---|
A類型 | 5万円以上150万円未満 |
B類型 | 150万円以上450万円未満 |
ITツールの種類によって補助金の対象にならないこともあるため、事前に確認が必要です。
*出典:経済産業省
まとめ
この記事では音声認識AIについて詳しく解説しました。一般企業のほか、公官庁や地方自治体でも広く活用されるようになりつつあり、今後の技術の進化にも期待が寄せられています。
ご紹介した活用方法やメリット・デメリットを参考に、音声認識AIの導入検討の判断材料として役立てていただけますと幸いです。