Interview/

Makita/ Tung/

ーー自己紹介をお願いします

牧田

2017年5月にLINEに入社しました。前職は機械翻訳を事業としている会社で、ディープニューラルネットワークを用いた機械翻訳モデルの開発をしていました。LINE入社後はClovaのNLU DM(言語理解対話管理)をメインでやっているチームに配属されました。その後、2019年の7月に異動して、現在はディープニューラルネットワーク等の機械学習ベースで音声言語技術の開発を行うチームのマネージャーをやっています。

Tung

前職はアンドロイドフレームワークのアーキテクトとして、Wi-FiとLTEを制御する部分のコネクティビティマネージャーを改善するため深層学習の導入プロジェクトを立ち上げました。LINEには2017年の10月にジョインして、はじめはClovaのアンドロイドSDKの開発をしながら、NLPチームも兼務していました。その後NLPチームが本務になり、それからずっと言語モデル関連の研究開発に携わっています。

ーー入社してから、今の部署に入ってからのギャップはありましたか?

牧田

私の所属しているClova開発室の音声開発チームという組織の役割としては、AIアシスタントのClovaでの音声処理の改善や、LINEが開発・保有するAI技術を外部企業等に展開する事業「LINE BRAIN」で提供している自動字幕付与の技術、電話でのAI自動応答を可能にする開発プロジェクト「DUET」など、音声をテキストにする技術の開発がメインです。機械学習を用いたエンジニアリング関連のタスクが中心ですが、中でも日本語の音声言語データを用いた音声認識機向け言語モデルや、音響モデルと言われる機械学習モデルを構築・運用することは大きなミッションの一つです。この技術は現在、主にClovaのスマートスピーカーやLINEカーナビ等で使われています。これらに加えて、最近では新技術検証的なタスクも増えています。音声言語処理という分野は現在、非常に技術進化のスピードが早いため、迅速な開発や技術検証が求められます。

Tung

私の所属しているClova開発室のNLP開発チームにはエンジニアのみが所属していて、言語処理のシステムの開発と運用を行っています。主に、ユーザーのクエリをClovaデバイスを経由して音声からテキストに変換した後、そのテキストを分析し、ユーザーの意図を理解した上でその要求に応えられるサービス(特定スキルのサーバー)にリクエストする機能を担当しています。このテキスト分析の部分で、自然言語処理の様々な技術が使われています。例えば、ユーザークエリにどのサービスが応えられるのかを特定するためには、ドメインクラシフィケーションが必要です。その後に、各サービスにおいてユーザークエリのインテントとスロット抽出というタスクが実行されます。さらに自由会話や質問応答といったサービスなどでも適切な言語処理が求められます。

左:牧田 / 右:Tung

ーー具体的な業務内容を教えてください。

牧田

新技術検証についてはあまり具体的にお話することはできないのですが、基本的にはディープニューラルネットワークを用いたモデルを開発するという大きなタスクがあります。ここでは、数多く存在する学習データセットのブレンディングから最適なものを探し出したり、モデル作成時のパラメタ探索、最新のカンファレンスや論文で公開された技術の把握などの無数のサブタスクがあり、日々飽きることがありません。現在はCTCやLAS等のE2E音声認識モデルに加え、各種言語モデル、日本語のテキスト部に関してはSeq2Seq, Transformer等を検証しています。

音声認識機の開発業務としては、形態素解析や言語モデル等、日本語に特化した部分の品質改善が急務です。ここではデータ、アルゴリズム双方の改善が求められるため、エンジニアとしてのミッションは良いソースコードを書くことのみならず、データスペックの策定などのスキルも求められます。これは、実際に稼働中のサービス品質を向上させるということに直接つながるので、責任もやり甲斐も大きいと感じています。

また、定常的な機械学習モデル構築という運用的なタスクも存在します。ここでは主にミドル・インフラ層で、ツールやフレームワークの導入による効率化を進めているところです。

Tung

言語処理システムには、従来の機械学習から最新の深層学習まで幅広い技術が利用されています。業務は、モデルの研究開発とシステム開発/運用と大きく2つに分かれますが、実際はどちらも担当することが多いです。僕も、最初はドメインクラシフィケーションのモデルを開発しながら、そのモデルをデプロイするインフラの開発にも関わってました。その後、様々な言語処理を大幅に改善できる汎用言語モデルに着目し、現在ではClova向けの言語モデルを研究開発しています。世界でも、スコア競争の大きな言語モデルからプロダクションに相応しい軽量な言語モデルまで活発に研究されるようになっているため非常に面白い分野です。これらの研究成果をプロダクトに組み込むにあたって、データ処理のパイプラインやモデルの管理などシステム開発面でもチャレンジングな課題が沢山あります。研究・開発・運用のどれか一つでも一緒にやりたいという方がいれば、ぜひ仲間になってほしいですね(笑)。

牧田

音声開発は韓国のNAVERと密に連携して進める部分が多いです。もともとNAVERには音声開発の組織が以前からあるため技術的な検証はかなり進んでいます。世の中で今何が最新かがよく分からないくらい技術の進歩が目まぐるしいのですが、韓国語ではこうなったけど日本語ではどう?といった議論をしながら一緒にやれるのは面白いですね。それに、中長期的には多言語対応を見込んでいかないといけないので、そのためにも密な連携をしていく必要があります。

Tung

言語処理でいうと、NAVERには言語モデルの研究部署とアプリケーション開発の部署があります。こちらでも同様に、最新の言語モデルの研究とそれを超えるにはどうすればいいかということに共同で取り組んでいます。

ーーそれぞれの領域において、現在そして今後の課題はなんでしょうか?

牧田

まずはLINEが世に出していこうとしているプロダクトの精度を上げていく必要があります。プロダクトの品質改善は継続的な課題だと考えています。実際、まだまだ日本語市場で一番といえるレベルには達していないものもあります。大手企業やベンチャーなど、この分野に強い企業はたくさんあります。その中で他社のプラットフォームと引けをとらないレベルにまで育てていかないといけない。そのためには学習データをどれだけ確保するかというところがポイントになります。

また機械学習系ならではの課題として、インフラ部門とのGPUスペック選定や検証など、インフラ基盤の整備も継続的に進めていく必要があるので、音声処理と言語処理の両者で連携しながら進めています。

Tung

言語処理においては、学習コーパスから言語の特徴を最大限抽出して、汎用性もしくは特殊性のある様々なタスクを効率よく学習するための要素技術の研究を進めています。ここでは「効率よく」という点が非常に大事です。最近の言語モデルでは、大量なデータに対して学習するため多くの計算資源が必要とされます。しかし、学習できたものはコーパスのある統計的な相関に留まっていると考えられます。つまり、現在の言語モデルは言語処理(NLP)において大きな役割を果たしているが、本当の言語理解(NLU)にはまだ遠いと言えます。シンボリック推論やナレッジグラフと組み合わせる必要があるかもしれません。言い換えると、まだまだ伸びる余地があるということです。

牧田

あと、分野としても長期的にどうなるかということは分からないですが、ここ2、3年は世の中の動きも活発で、非常に面白いのではないかと思います。

Tung

はい、大きく発展する可能性は高いと思います。特に、日本語の言語モデルにおいてはグローバル企業に引けをとらないレベルに達しているので、それは大きな強みになると思います。

ーー学生時代、どんな経験をしていると役立ちますか?向いている人とは?

牧田

必ずしも理系出身である必要はないと思いますが、大学時代に数理的思考を身に着けておくとすごく有利になると思います。今ってディープラーニングをすごく簡単に使えるようになっていて、エンジニアでなくても1ヶ月もあればコードを書けるようになるんですよ。でもそれだけではなくて、ソースコードを追って、論文を読んで、数式で裏を取る、ということを自発的にやってしまうような人じゃないと厳しいかなと思います。逆に、ツールを使うのが目的になってしまっている人は向いていないと思います。もちろんそういう人が活躍できる現場もあると思うんですけど、私たちの現場では厳しいです。背景にある理論や数式など、根本的な部分をきちんと理解したうえで、それをどう活用するかを考えられる人が活躍する環境だと思います。

Tung

今は世の中に新しい論文がどんどん生み出されている時代なので、そういった最新の研究結果をキャッチアップできて、かつ実装できる人ですね。両方のスキルが必要です。世の中の進歩が速いので、キャッチアップができるというのはとても大事です。世界のトレンドを把握しながら、今の事業に必要なタスクを、誰からもアサインされてなくても自主的に提案できる人は大歓迎です。

ーーLINEで音声・言語処理のエンジニアとして働くやりがいは何でしょうか?

牧田

LINEだからこそ得られる大規模で多様なデータに触れられることです。幅広く色々なことを試すことができます。

Tung

私自身がもともと研究意欲があって深くまで追求したいという想いがあるので、それができる環境があることはメリットのひとつです。特にこの分野はリサーチ能力がないと戦っていけないので、そのスキルを磨くことができるのは、大きなやりがいになっています。研究と開発が一体感を持っている分野だと思います。

牧田

社内には基礎研究を担う専門の部署があるので、主な基礎研究はそこでやっています。私たちのチームは、プロダクトに向き合いながら研究ができるという点が特色だと思います。技術進化のスピードが早く、世の中の動向が活発な領域において日々新しい刺激を受けることができる一方で、それを実際のプロダクトに生かすチャンスもあるのが魅力ですね。研究室のダミーデータで扱ってできることと、実際のプロダクトに組み込むのは全然違います。また、データ量が多いほど精度が上がる傾向もあるので、多様なデータを持っているLINEでそれを経験できるのはやりがいがあると思います。

Tung

今LINEに入れば、言語処理において世界でどのような発展が起きているかをすぐにキャッチアップできます。この1年以内で言語モデルは爆発的に進化するので、そこに身をおいて得られた経験はきっと役立つはずです。そして研究だけでなく、どうやってプロダクトにもっていくのか、データ処理やモデルの管理・運用ができることも重要です。LINEで言語処理エンジニアとして活躍できるようになれば、将来どこにいってもやっていけるスキルが身につきます。

ーー音声、言語の領域をやっていく個人としてのやりがいは?

牧田

僕は学生時代、ニューラルネットワークを使った技術をやっていたのですが、当時は古臭い技術だと言われていた立場だったんですね。それが今はなぜか、ニューラルネットワークが世の中心にいて。世の中どんどん変わっていっていますが、身近なところでも常に何か新しいものが生まれていて、瞬きしてると取り残されてしまうくらいのスピード感があるのは面白いですね。

Tung

そうですね。この分野は激しい変化なので、GAFAよりもいいものを作れるかもしれない。その可能性があるからこそやりがいがある。新たに参入してくる様々なプレーヤーとしのぎを削りながら、新しいことを試すことができるチャレンジングな領域だと思います。

ーー活躍する若手の特徴は?

牧田

検証を進めていく能力や研究の数字を追うところだけでなく、どうプロダクトに生かすかというタスクをマネジメントできている若手とは、接する度に感動しますね。

そのように、とにかく根本的に理解するまで突き詰める能力、執念がある人は活躍すると思います。加えて、状況を俯瞰してみることができて、コミュニケーションが円滑にできることも大切です。

ーーどういう人がLINEに向いてると思いますか?

牧田

LINEでは、自主的に動いて仕事を進めていく姿勢が求められます。そうした状況を生かして、会社に貢献しながら同時に自分の成長も考えていける人は向いているのではないでしょうか。いい意味で、会社や環境を利用して自分の能力を伸ばそうとポジティブに考えられる人は楽しめると思います。

Tung

研究と開発の両方を担当することが多いので、技術や知識を突き詰める真面目さと、世の中に良いプロダクトを生み出したいというマインドのどちらも持っている人が向いていると思います。研究と開発それぞれの領域を超えて仕事ができることに魅力を感じる人がいいですね。

ーー最後に学生の皆さんにメッセージを。

牧田

LINEには色々なプロダクトもありますし、この分野自体も非常に挑戦のしがいのある領域です。今、LINEやLINEでの開発業務に興味を持っている方はぜひ選考を受けていただき、その過程でも情報を色々仕入れていただいて、もっと興味を深めていただければ嬉しいですね。

Tung

仕事としても個人としても挑戦心のある人と一緒に働きたいと思っています。関わるサービスや事業の成長も挑戦ですし、個人としてのキャリアやスキルを向上させることにも意欲的な人がチームに増えると、私たちの刺激にもなります。LINEは開発者にとっておもしろい要素がたくさんある会社なので、ぜひ挑戦してみてください。