AI画像認識とは、人工知能を用いて、画像・写真の中に含まれる情報や特徴を識別・分類する技術のことです。
デジタル画像の中のピクセル情報から物体、顔、文字などの情報を自動で認識する技術は、日常生活や産業分野において大きな影響を与えています。
本記事では、AI画像認識の基本的な仕組みから、身近な活用事例について詳しく解説します。
画像認識技術とは?
画像認識技術とは画像に写る物体の形や色などの特徴から、画像に何が写っているのかを認識する技術のことです。
特定のルールやパターンに沿ったデータから特徴を抽出するパターン認識技術と呼ばれるもののひとつで、主に画像を利用して人や対象の形状をを認識します。
AIによる画像認識とは?
AIによる画像認識とは、読み込んだ画像の中に写っている顔や文字、対象物などをAIに解析させて判別させる技術です。
AIは機械学習や深層学習などの技術により、画像を何度も読み込むことでパターン学習できます。
この特性を利用して画像認識精度を高め、画像内に写っている人や物を識別する精度を高められるのです。
画像認識でできること
画像認識でできることには、次のようなものが挙げられます。
- 顔認識
- 文字認識
- 物体検知
- 物体個数のカウント
- 物体の形状・大きさ・色の判別
画像認識は機械学習や深層学習が取り入れられることで、画像の中から物体を見つけ出し、何がどこに写っているのか、どのような状況なのかを正確に認識できるようになりました。
また、近年では人の顔を読み取り、感情を認識する取り組みなども行われています。
AIが使われるまでの画像認識の歴史
現在はAIが用いられるようになり、大きな進歩を果たした画像認識技術。
画像認識技術にAIが使われるまでには様々な歴史がありました。
ここからは、画像認識技術の以下の歴史について解説します。
バーコードから始まる画像認識
画像認識技術の原点はバーコードを使った画像認識といわれています。
バーコードとは黒いバーとスペースを組み合わせて、数字や文字を機械が読み取れるように表現したものです。
当時は計算ができる程度のコンピュータしかなく、価格も高価であったことから普及は進んでいませんでした。
しかし、1960年代にアメリカの食品チェーン店やスーパーマーケットが電子スキャナを持ったチェッキングシステムを初めて導入し、商品の読み取りにバーコードが使用されたことをきっかけに、バーコードの標準規格が作成され普及が進みます。
日本では1972年にバーコードを利用した自動チェッキングシステムがダイエーと三越百貨店でテスト導入されます。しかし、まだ日本でバーコードの標準規格が存在しなかったことと、バーコードラベルの印刷や管理の手間から普及が進みませんでした。
その後、1984年にセブンイレブンが販売情報を入力したり収集したりするPOSシステムを導入し、バーコードのマーキングを求めたことで日本全国にバーコードが広がります。
物体の位置を検知するテンプレートマッチング
テンプレートマッチングとは、画像に写っている物体の位置を検出する技術のひとつです。
検出したい部分のテンプレート画像を利用して、画像内で最も類似する場所を探し出します。Windowsなどの台頭によりコンピュータの性能が向上したことで、2000年代以前によく利用され広く普及していました。
ただし、テンプレートマッチングでは対象にするものに応じてテンプレートを用意する必要があること、照明など光の変化で画像の認識率が下がることが課題でした。
ハードウェア性能向上による画像認識の普及
画像を認識するためのハードウェア性能が上がったことも、画像認識が普及する要因となります。
1980年代に入ってパソコンが登場したことに始まり、1990年代にはCPUの性能が大きく向上したことで画像処理できる幅が広がりました。画像処理用のソフトウェアも作成・販売されるようになり、産業分野などで利用されるにまで至ります。
機械学習・深層学習による画像認識の進歩
パターンマッチングが活用されていた画像認識ですが、機械学習や深層学習(ディープラーニング)を利用したAIの登場により、画像認識やAIの分野で世界中に大きな衝撃を与えました。
2012年には画像認識に関わる次の出来事が発表されています。
- Googleが「ディープラーニングによってAIが自動的に猫を認識する技術」を発表した。
- ILSVRCという画像認識コンテストにおいてディープラーニングが活用されたシステムがエントリーされた
Googleの場合はディープラーニングを活用することで、人が教えることなくAIが自発的に猫を認識させることに成功したと発表しています。
ここでは、AIが画像を見分けられるようになった画像認識の精度と、AIが学習を重ねて画像を自力で認識したという2点がAIの進歩として驚かれた要因です。
画像認識の精度を競うILSVRCでは、カナダ・トロント大学のヒントン教授が率いるチームが開発した「AlexNet」が、前回コンテストの優勝記録である誤り率から4割ものミス削減に成功し、画像認識精度の高さを示しました。
これらの出来事をきっかけに、近年ではAI技術がより発展して画像認識の精度の高さや処理スピードが高まっており、さまざまな産業で利用されています。
AI画像認識技術の種類7つ
画像認識は対象物の抽出や画素の処理といった複雑な処理が必要です。
画像に写っている人や物などの対象物の違いによる形状、色、複雑さなどから画像処理の種類が変わります。
ここからは、画像認識で使用されている以下の技術について解説します。
物体認識
物体認識は画像に写っている人や物など、代表的な物体を認識・特定する工程です。
AIを用いた物体認識においては、大量の画像や正解を示すデータを学習させておき、学習データを元に画像内の物体が何かを特定するという作業になります。
例えば、画像内に犬の散歩をしている人が写っていた場合は、人や犬が写っている領域を切り取り、人や犬の識別用パターンと比較することで人や犬がいると判断されます。
環境や状況の認識
環境や状況の認識フェーズでは、画像に写っている対象物だけでなく周りの環境や状況を認識します。
例として、読み込んだ画像に「黒板」「並べられた机」「制服姿の男女」などが写っているとき、一般的に学校内で授業を受けている風景と捉えられます。
このように、画像に写っているものを正しく認識するためには、人や物といった対象物単体の情報だけでなく、周りの環境を考慮して認識させることも必要です。
物体の位置を検出
画像に写っている人や物を識別して位置を特定することを物体検出と呼びます。
画像内に含まれている人や物がどこに写っているのかという「位置」を特定するための技術で、画像認識と併用されています。
従来の画像認識では、画素の集合体でしかない画像から何が写っているのかを判断することは難しいという課題がありました。しかし、AIを活用することで学習されたデータから物体の検出が特定できるようになったことで、画像内の物体位置検出が比較的容易になりました。
画像キャプションを生成
画像キャプション生成は、入力した画像内に何が写っているのか、どのような状況なのかを判別し説明文を出力することです。画像の中に写っている物体、アクション、場面、関係性などを識別し、それらの情報から人間が理解できる言葉で説明を作成します。
画像キャプションは主にタグ付けや説明を追加して、各画像の検索や管理を効率化するために利用されます。
セグメンテーションで画素識別
セグメンテーションを利用した画素識別では、画像内の人や物といった対象を識別し、画素ごとにどのカテゴリへ分割されるのかを識別することです。
例えば、道路の画像に対するセグメンテーションを考えたとき、分類は「車」「道路」「歩道」「建物」「樹木」などといったカテゴリに分けられます。
セグメンテーションで画素識別する手法には、以下のような手法があります。
- セマンティックセグメンテーション
画像内のすべての物体を対象として画素単位に分類します。 - インスタンスセグメンテーション
画像内で同じカテゴリに該当する対象物を分類します。 - パノプティックセグメンテーション
セマンティックセグメンテーションとインスタンスセグメンテーションをあわせた手法。背景などを含めた画像全体と、個別の対象物をそれぞれ分類します。
各対象物を分類することで、個々の物体の境目をより詳細に理解することが可能です。
人の顔認証
人の顔認証は人の顔が写った画像から、顔の特徴を抽出する技術です。
顔認証では読み込んだ画像や映像の顔から「目」「鼻」「口」「顔の輪郭」などを抽出して、顔の識別、似た顔の検索、顔のグループ化ができます。
また、顔認識で読み取れる情報は顔にある各部位だけではありません。肌の状態から年齢なども分析可能な上、人の顔にとどまらず猫や犬といった動物の顔も検出できるようになりました。
近年では、笑った顔や怒った顔などから喜怒哀楽の感情を読み取る研究も進められています。
画像内の文字認識
文字認識は画像内に写る数字や文字を認識する技術です。
代表的なものとして、Optical Character Reader(光学文字認識機能)があげられます。
文字認識はカメラやスキャナなどから取り込んだ画像内に含まれる文字を読み取ることにより、一度印刷された文書などをパソコンで使えるテキストに変換します。
「e-文書法」などの法律により、文書のデータ化が進んでいる今、文字認識は書類のペーパーレス化や情報の二次利用など、文書のデータ化に欠かせません。
さらに、文字認識にAIが活用されるようになったことで文字識字率が高まり、対応できるフォーマットが増えたことから、作業効率の向上も期待されています。
AI画像認識の仕組み
AIにデータを学習させるとき、機械学習や深層学習を利用します。
画像認識を行う上で、どのようにAIへ画像を認識させるための学習を行うのでしょうか?
ここからは、画像認識にAIを用いる際の仕組みについて紹介します。
機械学習
機械学習とは大量に読み込ませたデータから、さまざまなアルゴリズムを用いて一定のルールやパターンを分析する技術です。AIにデータを反復して学習させることで、パターン予測の精度が高まります。
画像認識で機械学習を用いる場合、まずは大量の画像データから正しい画像パターンの学習が必要です。AIはアルゴリズムに従って画像に写っている対象物の形や大きさ、色などの特徴を学習し、実際に画像認識するときは学習した画像データをもとに判別します。
深層学習:ディープラーニング
深層学習(ディープラーニング)とは、人間の神経細胞の仕組みを再現した技術であるニューラルネットワークを用いた機械学習手法のひとつです。データの背景にあるパターンを学習するためにデータの入出力だけでなく中間にいくつもの層を設け、自動で特徴を定義し再学習できるという特徴があります。
深層学習で画像を学習させるとき、大量の画像を読み込ませて画像を学習することは機械学習と同様です。深層学習はさらに対象の画像からどのような特徴を見つけるべきか自分で判断し、目的に合わせて定義を調整しながら学習します。
機械学習の場合は学習した画像に従って判断するため、学習していない画像に対しては認識できない場合がほとんどでした。しかし、深層学習では自動で再学習するため、より複雑な画像も認識できます。
AI画像認識モデルの構築方法とは
AIに画像を認識させるためには、画像の学習を繰り返したモデルが必要です。
ここからは、画像認識モデルの構築方法について、以下の内容を紹介します。
画像データの収集
画像データ収集では、AIに画像パターンを学習させるための画像を用意します。
このフェーズで必要な作業は次のとおりです。
- 目的に合った画像を用意するためのデータ項目を決める
- AIに学習させる画像を大量に用意する
AIに画像を正しく認識させるためには、学習用に大量の画像と目的に合った画像の準備が欠かせません。例えば、服の種類を画像から判別するモデルを作る場合は、判別させたい服の画像を大量に用意する必要があります。
収集した画像が少なかったり、目的に沿わなかったりした場合、AIの画像認識精度が著しく下がるでしょう。
AIに学習させる画像を大量に用意することは、AIの画像認識精度を決める重要な作業です。
画像認識精度を上げるため、必要な画像をしっかりと収集しておきましょう。
ディープラーニングモデルの定義
ディープラーニングの定義では、実際に画像認識に使用する機械学習のモデルを構築していきます。モデルを構築するにあたって、すべて自分で用意するのではなく、学習用の機能がまとめられたライブラリというものを活用してモデルを構築します。
モデル構築用のライブラリは数多く提供されており、ライブラリごとに得意・不得意があるため、適切なライブラリを選択してモデルを構築していきましょう。
ディープラーニング用に用意されているライブラリには以下のようなものがあります。
- TensorFlow:ニューラルネットワークの構築、訓練ができる
- Keras:構造がシンプルで使いやすい
- PyTorch:動的計算グラフで設計されている
- scikit-image:numpyやscipyなどの主要なPython科学計算ライブラリと同時に使用できる
- Pillow:コードが直感的で扱いやすい
使用するライブラリを決めたら、実行環境を設定しましょう。
画像の実装・検証
画像認識用のモデルが準備できたら、実際に画像を読み込ませて精度を評価していきます。
目的とした画像を読み込めるか、間違いなく読み込めるのかなど、事前に検証を行うための項目を用意しつつ、テスト用の画像を読み込ませて結果を取得します。
検証結果を元に再学習
実装・検証したあと、検証結果を使ったAIの再学習が必要です。
画像を読み込ませた結果、正しく認識できなかった画像や認識ミスした画像から原因を特定して再度学習させることにより、画像認識モデルを改善します。
再学習を繰り返すことで、画像認識モデルの性能を向上させて精度の高い画像認識が行えるようになるのです
AI画像認識の活用事例
ここからは、AI画像認識の活用事例を紹介します。
画像認識技術はさまざまな形で応用され、すでに身近な場所に広がっています。
以下の活用事例から画像認識がどのように使えるのか理解していきましょう。
アマゾンGo
2018年アメリカ・シアトルでAmazonが運営する「Amazon Go」というコンビニがオープンしました。このコンビニでは店内の至るところに設置したセンサーやカメラを用いて、ディープラーニングを活用した画像認識によるお客様の手に取った商品の認識を行います。
会計は事前に専用のアプリをスマホに入れておき、Amazon Goを退店したときに画像認識で読み取られていた商品の精算が自動で行われる仕組みです。
画像認識を活用することにより、自動で商品を判別して会計まで行えるシステムが構築されています。
参考:Amazon Go型無人決済店舗は日米で真逆の商圏を開拓する【鈴木淳也のPay Attention】-Impress Watch
モノタロウAIストア
2018年4月に国立佐賀大学本庄キャンパス内で、完全無人店舗のモノタロウAIストアがオープンしました。この店舗はモノタロウとOPTiMの共同運営実証実験としてオープンした店舗です。
モノタロウAIストアでは店内や入り口にカメラを配置し、画像から人の出入りによる人数のカウントをしながら管理者にも通知を出すという動作にAI画像認識が使われています。
商品は自分でバーコードを読み込んで商品を追加するシステムになっていますが、導入時のカスタマイズにより商品の自動追跡も可能なようです。
参考:OPTiM 無人店舗事例
無人化されたコンビニ
一般的なコンビニでもレジ不要の無人店舗を運用する試みが実施されています。誰もが知るコンビニ大手のファミリーマートでは、2024年度末までに約1,000店舗を無人化すると発表しており、無人店舗の出店が増えました。
ファミリーマートの場合は従来のコンビニ店舗に加えて、最低2.5坪と省スペースから対応可の設置型店舗モデルも用意されています。お店は事前登録不要で利用でき、手に取った商品を画像認識により判別して出口で会計を行うシステムです。
会計はセルフレジで処理しなければいけませんが、商品が画像認識により読み取られた状態であるため、簡単に買い物を終えられます。
来客分析サービス:vieureca
viuerekaはパナソニックが2019年にAI画像認識技術を活用して作った来客分析サービスです。画像認識技術を利用して来客者の分析を行うことで、小売店の売上アップや来客者の満足度向上させることを目的としています。
来客分析サービスの活用事例のひとつは、ドラッグストアの来客者分析です。カメラを約100台導入して、来店客の性別、年齢層、どの棚の前を通ったかなど、来店客の情報を収集します。
収集したデータから来店客の行動を分析することで、店舗内の商品の配置変更や来客者の興味を引く棚を作るなど、効率的に売上向上につながる施策を打つことが可能です。
画像認識により、来客者とその行動を分析するために画像認識が利用されています。
危険運転の自動検出
NTTコミュニケーションズ株式会社と日本カーソリューションズ株式会社が、2016年9月に車両から取得したドライブレコーダーや速度などのデータをAIで解析する共同実験を行い、危険運転の自動検知に成功したことを発表しました。
危険運転を検出するにあたって、画像認識が使われる場面はドライブレコーダーに蓄積された画像の解析です。ドライブレコーダーに記録された映像データとセンサーから得られたデータを元にAIが画像を分析して危険な状況を予測・検知しています。
危険運転の自動検知に成功した時点では約85%の検出率だったようですが、今後AI画像認識の精度が上がることで、100%に近づいていくことが期待されています。
医療で使われる画像解析
医師の診断支援や診断の質向上、検査・診断業務の効率化などを行うため、放射線や内視鏡カメラなどの医療機器でAI画像認識の仕組みが使われています。
診断中に撮影した大量の画像データからAIが学習を繰り返し、精度の高い診断結果を返せるようになるのです。将来的には読み込んだ画像から病気が発症するリスクや悪化の可能性が予測できるようになると期待されています。
参考:AI医療とは?活用事例やメリット・デメリットなど今後の課題を解説
製造業の不良品検品
製造業の検品作業にも画像認識技術が使われ、不良品の検品に活用されています。検品作業で流れてくる製品の画像を取得し、製品の向き・色・形などを学習することで品質を判別できるようになります。
製品の品質を保つために欠かせない作業である不良品検知。従来の目視による作業では担当者にかかる負担は大きいものでした。そこにAI画像認識を取り入れることで、作業の負担軽減や作業ミスを減らすことが期待されています。
AI画像認識の今後と課題
AI画像認識はこれまで人手を要していた多くの作業を自動化することが期待されています。人手が不足している業界も多々あるため、AI画像認識の活用シーンは広がっていくでしょう。
ただし、AI画像認識を使う上でのデメリットとして多くのカメラを用意したり、目的に合わせてAIの最適化したりなど、導入コストが高いことがあげられます。
導入するためのハードルが下がらないと、AI画像認識の普及が難しいため、より簡単に導入できる仕組みが必要だと考えられるでしょう。
これからのAI画像認識
本記事ではAI画像認識の活用事例や仕組みについて解説しました。
AI画像認識は、AIが画像の内容を識別・分析する技術であり、その仕組みはディープラーニングという手法を主軸にしています。活用事例からカメラでの顔認識、自動運転車の障害物検出、医療分野での異常部位の特定など、多岐にわたる分野で活用されていました。
AI画像認識は今後も進化を続け、さらに多くの分野で利用されることでしょう。