画像検索の未来

警備も農業も不良品検出も … 画像認識の利用拡大が止まらない

画像認識の応用が広がっている。　画像は人工知能 (AI) 技術の中でも先行して実用化が進む。　米グーグルやインテルなどの提供品に加えて、オープンソースを含めると有料無料の認識 AI モジュールが広く提供されている。　そのため認識機能だけでは差別化しにくく、データの収集や再学習の仕組みをビジネスモデルに深く組み込む必要がある。　AI ベンチャーなどの開発動向を追った。

コスト抑制・人不足に対応

「データを大量に集めて大きなモデルに学習させればいいわけではない。　精通した者が用意すれば少ないデータと小さなモデルで精度をだせる。」とトリプルアイズ（東京都千代田区）の森里直博イノベーション部担当部長は強調する。　データ量やモデルの大きさは AI の開発コストに直結する。　同社は飲食店や小売店などで来店客を数える画像認識 AI を提供する。　来店客の顔を撮り、年齢や性別を推定する。　表情から感情、来店頻度からリピター率を特定する。　万引犯を登録すれば来店時にアラートを出せる。　森里部長は「バーなどの暗い空間でも識別できた」と胸を張る。

店舗ではデータを顔の識別に使う特徴量データとして保管する。　画像とは違い、人間が特徴量データを見ても何のデータかわからない。　松本浩敬執行役員は「まず顧客属性を可視化する目的で導入する店が多い。　その後、万引犯などのブラックリストを系列店で共有するなど機能を追加していく。」と話す。　開発コストを抑えて導入ハードルを下げ、その後の機能拡張に向けユーザーを囲い込む。

KB-eye （山梨県昭和町）は画像認識 AI を使った警備の省人化を提案する。　道路工事の交通誘導ではカメラで車両や通行人を検出して警備員に無線で状況を知らせる。　警備員の死角を AI で補う。　警備会社にとっては人手不足の対応策になる。　警備業務を発注する建設工事会社にとっては、工事を発注する自治体からの評価につながる。　競争入札では AI 導入に加点されることがある。,/p>

駐車場や雑踏の警備では通行者や車両を数えて交通量調査を兼ねることも可能だ。　同社の橘田孝一共同代表は「警備の効率化と新しい価値提案の両方ができる」と胸を張る。　同社は警備会社のタスクマスター（山梨県甲州市）とウェブ制作のホワイトボード（同昭和町）の共同出資会社だ。　システムは建設器具レンタルなどからの引き合いが多いが、橘田代表は「建設会社が使うと警備のコスト削減の道具になってしまう。　警備会社に提供し、警備会社の武器としたい。」と話す。

AI の認識対象は人間には限らない。　NTT データ CCS （東京都品川区）は稲穂の生育段階を識別する AI を開発した。開発者の岩沢紀生スタートアップ推進室課長代理はもともと農業・食品産業技術総合研究機構や県の農業試験場の研究者だった。　実際に試験圃でコシヒカリを育てて、画像データと生育段階を結びつけた学習データを作成した。　農家が田んぼをスマートフォンで撮影すると、画像認識 AI が幼穂分化期や減数分裂期などの生育段階を推定する。　この生育段階での施肥が米の収量や風味を大きく左右する。　約 1 週間以内に施肥をする必要があるが、AI の推定精度は前後 1 日。

岩沢課長代理は「コシヒカリで要求精度は満たせた。　次は地域や品種を広げるために全国からデータを集めたい。」と話す。　農家は画像データだけ持っていても価値は生まない。　そのためデータ提供に前向きな農家は少なくない。　ただ一年を通した確かなデータを集める必要がある。　育成推定サービスを無料で提供すると利用者も気軽に辞めてしまい、データの信頼性が落ちる可能性がある。　データと引き換えにサービス料を割り引くなど、さまざまな連携モデルを描く。　岩沢課長代理は「技術はある。　ユーザーから確かなデータを集め、かつビジネスとして成立させる部分が一番難しい。」と明かす。

外観検査、識別後の改善カギ

一般に、学習用のデータを集めた時点から環境や条件が変わり、データが現状と合わなくなると AI の識別精度は落ちる。　そのため導入後も学習用データを集め続けて再学習する必要がある。　継続的にユーザーの協力の元で更新するか、ユーザー自身に更新させる必要があった。　一方で優秀な AI 技術者は数が限られるため、システムを手離れよく設計しないと業界に行き渡らない。　そこでプリファードネットワークス（PFN、東京都千代田区）は少ないデータで工業製品の不良を見つける画像検査 AI を開発した。　良品 100 枚、不良品 20 枚程度の画像を学習させれば機能する。

少ないデータでも識別できるのは、事前に検査に向くモデルを構築してあるためだ。　開発した斎藤真樹リサーチャーは「表面の傷など、微細な違いを判別できるように訓練した」と説明する。　これに検査対象の良品と不良品の画像を追加で学習させると金属部品のひっかき傷や、カーペットの小さなシミなどを識別できる。　良・不良の判定に加え、不良と判定する根拠部分を画像に表示できる点が特徴だ。　AI が傷やバリを不良と判定すれば、そこを赤く示す。　この根拠表示機能があると、現場の「カイゼン活動」に使いやすい。　改善の結果、目的の不良が減ったか確認できる。　改善に加えて、材料や加工条件などを変更した際の不良の発生原理の変化を捉えやすくなる。

現行法は不良の発生原理ごとに評価ルールを決めて判定するが、新しい異常や一定の形にならない不良は難しかった。　同社の河合圭悟ビジネス開発担当は「ルールベースの検査と組み合わせると、より理解が深まる」と説明する。　外観検査は AI が識別したら終わりでなく、そこから原因究明とカイゼン活動が始まる。　改善に資する機能は必須だった。　画像認識の機能単体はコモディティー化しつつある。　そのためカメラ自体が苦手とする暗所での画像認識や、警備 AI のような受発注の力関係、農家とのユーザーデータのシェア、識別後の改善への活用など、識別機能に何を加えるかがビジネスの成否を分ける。 (小寺貴之、NewSwitch = 11-3-19)

ブロックチェーンを利用した地図アプリ、登場へ　地図の進化は止まらない!

現在の日本において、スマートフォンにデジタル地図のアプリをインストールしていない人はいないだろう。　住所を入力すれば目的地の位置を正確に示し、GPS で現在地の確認もできる。　使用費も掛からないため、何度でも気軽に確認できる。　Google マップのストリートビューが登場したことで、家にいながら指定した場所を探検することも可能になった。　紙の地図を広げ、道を覚えている時代からすれば、信じられないほど便利な世の中になったと言える。

さらに、デジタル地図が提供する価値は、アプリや探検にとどまらない。　我々日々使用するグルメ、旅行、ショッピングのアプリにも、デジタル地図は導入されている。　自動運転、ドローンなどの技術においても、デジタル地図はナビゲーションシステムの大役を担っている。　このように、デジタル地図により、我々の生活は益々便利になって行くだろうが、人々の生活に深く根ざしている分、デジタル地図にまつわる課題も垣間見える。

一つ目の課題は、地図の更新コストだ。　地図は、「街」の進化に伴って更新を行われなければならない。　2020 年の東京オリンピックに向けて東京の街は建物も大きく入れ替わりを見せている。　ベトナムやインドネシア等の新興国では頻繁に新しい道や建物が出来上がるため、新しい地図でもすぐ使い物にならなくなる。

デジタル地図の会社は、情報更新のため莫大なお金を投下する。　例えば、街中でたまに見かけるグーグルマップ専用車。　機材込のお値段、なんと一台 10 億円にも及ぶという。　その結果、デジタル地図データの利用料はどんどん吊り上げられている。　実際、グーグルマップのデータ利用料は、2018 年 8 月に 14 倍も値上がりした。　また、コストを投下したからといって、1 つの会社が世界中の地図の変化を捉えきることは不可能だ。

そこでデジタル地図の会社に代わって、ユーザーが作るオープンソース型地図という考えが誕生した。　「オープンストリートマップ」というサービスがその代表であろう。　安いコストでリアルタイムの地図情報を更新できるオープンソース型の地図は、「次世代のデジタル地図」とも言われている。　ところが、このオープンソース型地図に、二つ目の課題がある。　情報の正確性だ。　地図への情報提供はあくまでも一般ユーザーが行うため、情報の質の確保は難しい。

そこで今回は、「更新コストと正確性」の二つの課題を同時に解決できる地図アプリを開発している Hyperion Lab Foundation に話を聞いてみた。　Hyperion Lab Foundation は 2018 年にシンガポールで立ち上げられたプロジェクトであり、ブロックチェーン技術を活用し、分散型デジタル地図を開発している。

▽ 室内地図、ユーザー参加型地図にまずは着目

Hyperion Lab Foundation で CEO を務めるアイザック・チャンさん。　中国の一流大学で数学を専攻し、その後修士を飛び級して英ノッティンガム大学院でコンピューターサイエンス博士号を取得した。　いわゆる、天才エンジニアだ。　アイザックさんは Hyperion Lab Foundation を立ち上げる前に博士課程で学ぶ傍ら、室内地図の需要に着目。　在学中の 2013 年に「MAPXUS （マップサス）」という地図サービスを立ち上げた。

室内地図は百貨店等にテナントを出す店舗、消防、レスキューなど確実に需要がある。　また、室内地図は室外以上に、絶えず変化している。　したがって、「MAPXUS」はオープンソース型地図というシステムを取り入れている。　「MAPXUS」は現在、グーグル社やアップル社にも地図データを提供するまで成長をしている。

▽ ブロックチェーンを利用した未来型地図アプリ「Hyperion」

しかし、「MAPXUS」も先述したオープンソース型地図の課題に苦戦していた。　そこで、「MAPXUS」の進化型サービスとしてブロックチェーン技術を使った地図アプリ「Hyperion （ハイペリオン）」を提供するべく、アイザックさんは 2018 年に Hyperion Lab Foundation を立ち上げた。　アイザックさんは、博士課程卒業論文でハイペリオンの原型となる「分散型デジタルマップ」のアイデアをまとめたという。　元々「MAPXUS」もオープンソース型の地図サービスではあるが、ブロックチェーン技術を使うことにより更なる進化を見せた。

まず、ブロックチェーンの特性を活かしたハイペリオンは、データ改ざん等ができなくなり、正確な情報がより蓄積しやすくなった。　従来型のデジタル地図よりも圧倒的な更新頻度を誇り、悪意の情報によって正しい地図情報が塗り替えられる心配もない。　次に、トークンによるインセンティブ付けが可能となった。　従来の地図では、地図データを提供したユーザーに何の報酬もないのが通常である。　しかしハイペリオンでは地図データをアップロードしたユーザーに報酬（トークン）が渡される。　この仕組みを、ハイペリオンではマップマイニングと呼ぶそうだ。

なお、ここでいうトークンとは該当サービス内で使える通貨である。　ポイントのようなものを想像いただけばわかりやすい。　地図データを活用したい企業や個人は、地図データを購入する際にトークン支払いをすることが可能である。　予定では、ハイペリオンが提携する店舗において、トークンを使った決済が可能となる。　そのため、ユーザーはマップマイニングに参加するモチベーションが生まれやすい。

2018 年末にはユーザーが地図作成用画像をアップロードするためのアプリ「dMapper」がリリースする予定となっている。　スマートフォンを使って簡単に身近な地図情報をアップロードして報酬を受け取ることができる。　2019 年前半にはこの集められた写真を使ったナビゲーション地図アプリもリリースされる予定だ。　同社 CMO のカイ・ローさんはこう言っている。　「我々は日本のマーケットを非常に重要視しております。　この分散管理型の地図アプリを使うことでみなさんの生活はより豊かになることでしょう。」

地図アプリは、時代のニーズに合わせて大きく進化を遂げるのである。(ジャイアント佐藤、sankei = 12-6-18)

進化した Google レンズ、その先に見えた知られざる「潜在力」

グーグルは昨年の開発者向けカンファレンス「Google I/O」で、画像検索サーヴィスの「Google レンズ」を発表した。　いわば「逆向きの検索」で、画像を見つけるために文字情報を入力するのではなく、犬や植物などにスマートフォンのカメラを向けると文字情報が示される。　レンズは「カメラは入力デヴァイスだ」という宣言であると同時に、とてもグーグルらしいテクノロジーの使い方だった。

検索、コンピュータヴィジョン、人口知能 (AI)、拡張現実 (AR) といった要素を組み合わせ、まとめてアプリに落とし込む。　しかもその機能は、単一のエコシステムにとどまらず広がりをもっている。　今年のカンファレンスではレンズの大きなアップデートが明らかにされた。ショッピング、読み上げ、言語サポートなどの分野が強化されたのだ。　そしてレンズの普及を促進するため、メーカーにはレンズをカメラのネイティヴアプリとして提供することが求められている。

グーグルが目指す「次のステップ」

5 月末に行われる予定のアップデートは、グーグルの次のステップを象徴している。　AR・仮想現実 (VR)・ヴィジョンベース検索製品担当副社長のアパーナ・チェンナプラガダの言葉を借りれば、携帯電話のカメラを「世界を検索するときの視覚的なブラウザーのようにする」というものだ。　チェンナプラガダは、「わたしたちはいまや、何でも条件反射的に写真を撮るようになっています。　美しい日の入りや自撮り写真だけでなく、駐車場でどこにクルマを止めたか、名刺、読みたい本など、本当にあらゆるものを画像で記録しています。　行動様式の巨大な変化が起きているのです。」と話す。

別の言い方をすれば、グーグルはまだ、自分たちの未来には検索が存在すると考えているのだ。　ただし、検索の方法は携帯をさっと取り出してカメラを何かに向けるという、スマートフォンをもつ現代人にとってはすでに癖になってしまった動きになる。　グーグルは、ほかのテック企業もヴィジュアル検索への取り組みを進めていると知っている。　だからこそ、レンズを人々が携帯電話でいつもやっている行為に組み込もうとしているのだ。

スマートフォンのカメラとレンズが一体化

レンズはこれまで、「Google アシスタント」や「Google フォト」経由でアクセスするようになっていた。　今回のアップデートにより、ASUS、モトローラ、シャオミ、OnePlus などが出す 10 機種以上の Android 端末で、カメラを開けばそのまま使えるようになる。

LG の「ThinQ」シリーズの最新モデル「LG G7 ThinQ」には、専用の物理的なボタンまで用意されている。　サイドにある Google アシスタントの専用ボタンを 2 回押すと、レンズが起動する仕組みだ（ちなみに、サムスンも自社モデルに AI アシスタント「Bixby」の専用ボタンを付けている）。　ThinQ を使ったデモでは、物理ボタンを押すことできちんとレンズが起動した。　専用ボタンがない機種では、カメラを開くとスクリーンに動画撮影などのアイコンと並んでレンズを起動するアイコンが表示される。

アップデートでもうひとつ大きいのは、レンズを開くとシステムがカメラに映っている空間を自動的に検索し始める機能だ。　グーグルの VR・AR 担当副社長クレイ・ベイヴァーは、「ユーザーは何の答えが欲しいのか明確にわかっているわけではないということがわかりました。　ですからユーザーが写真を撮るのを待つ代わりに、レンズのリアルタイムという機能を使って空間をスキャンするわけです。」と話す。　スキャニングが完了すると、システムが検知した物体に AR の青いドットが表示される。　そして、そのドットに触れると検索が行われる。　ネイティヴアプリとして組み込んだり、リアルタイム機能を付けたりすることで、ヴィジュアル検索をより速くスムーズに動かすことができる。

ベータ版での実用度を試してみたところ …

だが、後者は邪魔になることもある。　例えば、靴にカメラを向けているのに、「ノパリート」というレストランの情報が出てきたことがあった。　靴の下の棚にそのレストランのメニューが置かれていたためだが、どうやら携帯電話を構えた瞬間に、レンズはメニューの存在に気づいたらしい。　また、ショッピング検索もうまくいかないことがあった。　システムが大きな灰色のセーターを象と間違えたのだ。　ただし、今回試したのはまだベータ版で、グーグルは 5 月末の正式公開までにこうした問題は修正されるとしている。

セーターの問題は別にして、ショッピング検索はなかなかのものだ。　以前はカメラに映ったものが何なのか特定されるだけだったが、今回のアップデートで「スタイル・マッチ」という機能が利用可能になった。　カメラに映っているすべてについて、買い物のオプションが示される。　例えばセーターと枕と靴があれば、どこで買えるのかと、おすすめ商品を教えてくれるのだ。　デモに使った枕は「Etsy.com」で買ったものだったが、グーグルはそれを見つけ出した。　前のヴァージョンはペットや植物を検索するのに便利だったが、新ヴァージョンはファッションやインテリア向きだろう。

言語に関しては、追加でスペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語に対応するようにになった。　注意しておきたいのだが、これは翻訳とは異なる。　レンズには元から「Google 翻訳」を利用した翻訳機能が付いていた。　新ヴァージョンではそれぞれの言語でレンズが使えるのだ。

もちろんグーグルの検索システムでは、すべての情報はインデックス化されている。　子犬の血統もレストランのメニューも、洋服の在庫や外国語でさえ、きちんと整理されているのだ。　では、それをレンズのヴィジュアル検索に反映させるのが難しいのはなぜだろう。　チェンナプラガダは、コンピューターヴィジョンからの情報に状況に応じて対応するのは、非常に複雑なタスクだと指摘する。　なぜなら、視覚を使って世界を感知するとき、物体は「まとまりがなく、ノイズの多い状態」に置かれているからだ。　彼女は「画像認識アルゴリズムには、これまでもコンピューターヴィジョン技術を使ってきました。　ただし非常に慎重にです。」と話す。

一方、ベイヴァーはヴィジュアル検索が技術的に難しい理由を、「世界にはおびただしい数のものが存在するため」だと説明する。　「英語には約 18 万の単語がありますが、日常的に使われているのは 3,000 - 5,000 語にすぎません。　ですから音声アシスタントのようなプログラムで認識しなければいけない対象の集合は、比較的小さいのです。」と、彼は言う。　「一方で、世界にはどれだけのものがあるか考えてみてください。　数十億は下らないでしょう。　形も大きさもさまざまです。　ヴィジュアル検索における問題は、文字や音声検索と比べてはるかに巨大なのです。」

テック大手からスタートアップまで参入

フェイスブックやアマゾン、アップルといった競合のテック大手も同じ問題に取り組んでおり、独自のヴィジュアル検索プラットフォームを構築したり、画像認識を手がける企業を買収したりしている。　昨年 2 月には、Pinterest　でカメラを使ったヴィジュアル検索が可能になった。　ピンタレストの技術はサムソンの Bixby でも使われていることが明らかになっている。　大手だけでなく、スタートアップもこの分野に熱心だ。　AR アプリの「Blippar」は、花や有名人、有名な建物などを認識できる。　高校生ですら「スマートレンズ」を使ったアプリをつくり始めた。

しかし、グーグルへの期待はもっと大きいだろう。　オンライン検索をいまある形につくり上げた会社なのだ。　ヴィジュアル検索でも同じことをやってくれるのではないだろうか。　またグーグルには、偏った見方をしたり不適切な結果を出したりすることのないアルゴリズムを組み上げることができるのかという、より重大な問題がある。　セーターと象を取り違えるのは構わないが、このミスで示されたように、単純に見える物体でもほかのものと間違えられる可能性は大いにある。

デモで実証された潜在力

テキストベースの検索の利点は比較的明確ということだ。　一方で、物体や人の認識ではまだ多くの間違いが起こっている。　ヴィジュアル検索の正確性を担保するためにどのような努力をしているのかという質問に対し、チェンナプラガダはメールで以下のように回答した。　「レンズの開発で最も重視したのは、エラーが起きた場合にシステムに原因を理解させるということです。　間違いを減らすのに役立つ改良を重ねるためです。　検索や文字入力のオートコンプリートシステムも、同様の哲学で開発を行っています。」

チェンナプラガダはレンズが複雑な問題を解決するのは「何年もかかる旅」の一環だとしたうえで、世界に存在する数十億のものをすべて認識して理解することは困難だと続ける。　建物をレンズで写すと、その名称や歴史などがすぐに検索できる。　自動車のモデル名も同様に簡単に調べられる。　だとしても、グーグルがヴィジュアル検索に夢中であることに変わりはない。　その潜在能力だけでなく、いま実際にできることだけでも十分に興奮させられる。

同社のオフィスでレンズの新ヴァージョンのデモに参加したとき、ベイヴァーが自分のスマホを取り出して、1960 年代のクラシックスポーツカー「ダットサン・フェアレディ 1500」の写真を見せてくれた。　「クルマのモデル名を知りたいとき、どうやって検索するか考えてみてください。　『丸いヘッドライトのクラシックカー、大きいフロントグリル、カーヴしたサイドライン、コンヴァーチブル、銀色の部品 …。』　テキストで表現するのはとても難しいでしょう?　レンズを使えばすぐにフェアレディ 1500 だとわかります。」と、ベイヴァーは言う。　「クルマのモデル名を探すために使えるテキストベースの検索コマンドなんて、本当に存在しないんです。」 (WIRED = 5-11-18)

Google マップ、案内キャラを追えば着く AR ナビをデモ

GPS と VPS 併用、カメラで店舗の名前も

開発者カンファレンス Google I/O 2018 より。　Google がマップと AI 画像認識を組み合わせた新しい AR ナビ機能を公開しました。　GPS よりも正確な位置情報を画像認識で得る技術 VPS を使うことで、現在のように画面の地図と周囲を見比べて悩むことなく、スマホをかざせば目の前の交差点をどちらに曲がれば良いのか直接指示してくれます。　現在のスマートフォンは一般に、人工衛星からの信号を拾う GPS や、周囲の WiFi 電波などから現在地を、電子コンパスで向いている方角を取得します。

しかし屋内やビルが林立している場所では GPS が使えなかったり、数十メートル単位でフラフラと動いて定まらなかったり、方角表示も周辺環境で変わったりすることが多く、特に都市部ではマップを開いても自分が正確にどこにいるのか、目の前に見えている建物が地図上のどれなのか分からないことも少なくありません。　Google がデモしたのはこうした状況で役立つ機能。　カメラの映像から位置を推測する技術 VPS (Visual Positioning System) を使うことで、スマホをかざせば目の前の交差点をどちらに曲がるべきか、東西南北ではなく直接矢印で示してナビしてくれます。

VPS では GPS より正確な位置情報が得られるだけでなく、カメラを通じて目の前の建物や道などを直接認識できるため、建物に Google マップ上の店舗データを重ねたり、地図では調べにくい道の名前をそのまま表示することも可能です。　さらに Google I/O 2018 のキーノートでは、「Just for Fun」で試してみただけの思い付きと前置きしつつ、カメラをかざすとポケモン GO 的に案内役のキャラクターが現れ、追いかければ目的地に辿り着ける機能もチラ見せされました。

(スマホの地図を見ながら歩くよりは、カメラごしとはいえ目の前を見て歩くだけマシな気はしますが、キャラクターに気を取られて周囲への注意が疎かになって事故を起こした、と訴訟を起こされそうなことを考えると、実際にリリースは難しいかもしれません。)

こうした「スマホをかざすと周囲の施設の名前が～」的な自称 AR アプリは昔からありますが、多くは目の前に何があるか認識できるわけでもなく、大まかな位置情報から適当にスポット名を浮かべていただけでした。　また画像認識で特定のランドマークを識別できるアプリは最近の機械学習ばやりでよく見かけるようになりましたが、VPS は目の前の画像の特徴点から、撮影場所つまりスマホの位置を高精度に取得できることが売りの技術です。

Google はこの VPS 技術を従来、GPS が使えない屋内でのナビゲーションや、倉庫内で特定の棚の何段目に何を置く、といった精度が必要な産業用途など向けにデモしてきました。　今回の Google I/O 2018 で披露されたのは、より一般的な Google マップの歩行者ナビに導入した例です。　VPS を使ったナビ技術の正式リリース時期は未定。　クラウド/ローカル両方で機械学習を回してリアルとデジタルを結ぶ技術はここ数年の Google の大きなテーマで、Google I/O 2018 ではこのほか Android の標準カメラアプリに Google レンズのリアルタイム画像認識組み込みなどを発表しています。 (Ittousai、Engadget = 5-9-18)

新発想カメラ Google Clips、家族やペットを認識、自動で決定的瞬間を残す AI カメラマン

記事コピー (10-5-17)

黒人男性の写真、ゴリラと自動分類　米グーグルが平謝り

記事コピー (7-2-15)