- インタビュイー
LINE内でAI関連の事業・
eKYCやDXを起点に画像認識の研究を推進
- ――Computer Vision Labを設立した狙いについて教えてください。
井尻:LINEには、
AIを核としたビジネスを展開するための組織としてAIカンパニーがあります。組織としての特徴は、 研究開発からプロダクト化、 ビジネス推進に至るまでを一気通貫で対応している点で、 事業を運営するために必要となる各機能を1つの組織の中に有しているのは大きなポイントであると考えています。 組織の中には、
R&D担当チームもあります。すでに音声認識・ 音声合成や自然言語処理を研究するチームが活動していますが、 それらと並立する形で画像認識に特化したComputer Vision Labを立ち上げました。 音声応対AIサービスである
「LINE AiCall」 やオンラインで本人確認を行う 「LINE eKYC」 などといったサービスを展開し、 企業、 あるいは社会におけるDX (Digital Transformation) の推進を支援しています。Computer Vision Labは、 こうしたAI活用における画像認識に関連した課題を事業横断的に解決することが大きな役割となっています。 ただ我々が取り組む課題は、
既存技術の単純な使い回しによる開発行為だけでは解決できないものもあります。そこで最新鋭の技術をさらに叩き上げる、 あるいは独自の技術開発を進めることなどにより、 研究から事業化に至るまでのスピードを加速していきます。 一方で、
現状は部門が立ち上がったばかりでわずか数名の組織であり、 これから積極的に人材を採用し、 チームを拡大していきます。 - ――画像認識技術を活用するエリアとして、
どういったところを考えられていますか。 井尻:我々が事業として戦略的に取り組んでいる領域があり、
それらを起点に研究開発を進めていきたいと考えています。 その起点の1つがeKYC
(electronic Know Your Customer) です。LINEはコミュニケーションのためのインフラとして、 老若男女を問わず多くの方々に利用されています。このLINEが提供するインフラを活用すれば、 コンピュータが苦手な人であってもITがもたらす利便性を享受することが可能です。さらにeKYCによってLINE上で本人確認が行えるようになれば、 より多くの価値を社会に提供できると考えていて、 Computer Vision Labとしても積極的に取り組んでいきたい領域になります。 2つ目はDXです。すでに多くの企業でDXに向けた取り組みは進められていますが、
その際にまず取り組むべきなのは情報のデジタル化であり、 このエリアにおいてもComputer Vision Labには大きな期待が寄せられています。 まずはこのeKYCとDXを起点として、
高度な画像認識を実現するための研究開発を進めていきます。
鍵を握るマルチモーダル・クロスモーダルでのAI利用
- ――具体的に、
どのような研究開発を進める予定でしょうか。 井尻:eKYCとDXに共通する要素として、
文字を認識してデジタルデータ化するOCRがあります。eKYCでは免許証などの券面に記載された文字を読み取る必要があり、 DXでは紙で保存された資料をデジタル化する上で文字認識は欠かせません。 DXに向けた流れが大きくなっている中で、
紙に印刷されたアナログの文字をデジタル化できることは大きなメリットになります。しかし技術的には完全と言える状況ではありません。 このOCRの精度向上において、
重要になるのは言語に対する理解です。 たとえば我々が文章を読むとき、
一部の文字がかすれていたり、 あるいは知らない漢字が使われていたりしたとしても、 前後の文脈から類推しながら読むことができますよね。場合によっては、 知らない漢字であっても正しく読めることすらあります。これがまさにOCRにおいても重要で、 正しく文字を認識するためには、 単なる画像のパターン認識だけでなく、 文脈を理解することが必要になると思っています。 現時点のOCRは、
こうした言語に対する理解が組み込まれていないため、 たとえば漢数字の 「一」 と記号の 「-」 (ハイフン) を区別できないなどといった問題が起こってしまいます。しかし文脈を理解することができれば、 それが漢数字なのか、 それとも記号のハイフンなのかは明白に判断できるようになるでしょう。 このように、
画像の課題を画像だけで解決するのではなく、 ほかの技術との組み合わせの中で考えることは大切です。実際、 人と同じような読み取り精度を実現する、 もしくは人が納得できる性能を達成するためには、 マルチモーダルなAIの融合が必要になると考えています。 - ――昨今では手書き文字でも高精度に認識できるAI-OCRと呼ばれるカテゴリのソリューションも登場していますが、
実際にはまだまだというわけですね。 井尻:現状ではまだ十分な精度には至っていないと感じています。実は私自身、
前職でもOCRに係わっていました。そのときのものと比較すると、 現在のAI-OCRの精度は非常に高いのですが、 それでも漢数字の一と記号のハイフンを間違えることはあります。 もう1つ、
現状の問題としてあげられるのは認識すべき文字が書かれている場所を指定しなければならないことです。たとえば帳票に書かれた文字を認識するといった場合、 帳票のフォーマットが変わると改めて文字認識すべき場所を設定しなければなりません。 LINEはすでに音声認識や音声合成、
そして自然言語処理といった分野の研究を独自に進めており、 多くの成果や知見を積み重ねています。OCRの認識精度向上を考えたとき、 画像認識だけではなく、 そのほかの技術も組み合わせてアプローチできるのはLINEの強みとなります。 たとえば空間に一定のレイアウトで配置されている文字の認識を考えたとき、
レイアウトを把握したり、 書かれている文字が日本語として成り立っているのか、 文脈から考えて内容は妥当かなどといったことを判断したりする、 そこでAIカンパニーが培ってきた技術や積み重ねてきた知見が生きてきます。このようにLINEの強みを全面的に打ち出して研究を推進したいと思っています。
ビジネスサイドと研究者が同じ方向を見ていることがLINEの強み
- ――井尻さんのキャリアについて教えてください。
井尻:以前勤めていた会社に入社したのは2002年で、
2021年にLINEにジョインしました。以前の会社では、 研究から技術を生み出すハブとなる会社の設立もリードしていました。その経験から、 チームビルディングや、 最先端の研究を事業に結びつけるための組織的構造やそのような場を生み出すことに興味を覚えるようになりました。そしてLINEから、 今後AIに関する研究から開発、 そして事業創出までを一貫して対応する体制を作り上げていきたいというお話を伺い、 ぜひやってみたいとLINEに入社することを決めました。 AIに関しては、
以前の会社に入社したころから携わっていました。当時は多少統計的な手法も利用されていましたが、 信号処理の延長線的な画像処理が中心であり、 エッジや特徴量の抽出によって画像を認識するといった処理が主流でした。ちょうど私が入社したころに、 画像処理と機械学習の融合が実用化できるレベルに達し、 特に顔検出の技術が実用化レベルに至ったことでブレークスルーが起きたと感じています。当時は機械学習の画像処理応用のあけぼの時代でしたが、 思い返せばそのころからAI技術を中心にキャリアを築いてきました。 LINEに入社することを決めた理由の1つは、
最初にお話したように、 AIカンパニーが研究からプロダクト化、 ビジネス推進まで一気通貫で対応する体制を整えていることに魅力を感じたためです。大企業では事業部のある本体と研究所が離れているため、 どうしても組織が縦割りになってしまい、 両者の間に壁が生まれてしまいます。しかしLINEであれば同じ組織の中で事業化まで担う形であり、 情報がエンド・ ツー・ エンドで流れるため、 研究者が実世界の課題に触れることができます。これは大きなメリットでしょう。 事業部と研究所が別々に存在していると、
どうしても対立構造になりがちです。しかし本来は対立するのではなく、 同じ方向を見る、 つまりビジネス側の人間と研究者が同じ課題に向き合うことが大切です。LINEのAIカンパニーは、 それができる体制だと考えています。 - ――Computer Vision Labでは人材を募集しているとのことですが、
どういった人と働きたいと考えていますか。 井尻:アイデアが豊富でクリエイティブな人ですね。そしてさまざまなことに興味を持ち、
生まれてきた課題を自分事として捉えられる人。そして夢のある人と一緒に働きたいと思います。 また誰かの下で働くということではなく、
自分で何かを成し遂げて 「これは俺が創ったんだ」 と言いたい、 そういった強い思いを持った人にぜひ応募してもらいたいですね。