機械学習分野におけるトップカンファレンス 「NeurIPS 2023」にて、2本の論文が採択

2023.09.29 技術情報

強化学習に関する研究成果を発表

LINE株式会社(以下、LINE)による論文2本が、2023年12月10日から16日にかけて開催される、機械学習分野におけるトップカンファレンスのひとつ「NeurIPS 2023」(米国、ニューオリンズ)にて採択されました。「NeurIPS(Neural Information Processing Systems)」は、Neural Information Processing Systems Foundationが主催する、機械学習・ディープラーニング・人工知能分野におけるトップカンファレンスです。採択された論文はいずれも開催期間中に発表されます。

 

■安全な強化学習を実現するための一般化された問題の定式化とアルゴリズムを提案

論文[1]は、安全な強化学習を実現するための手法について研究成果をまとめています。強化学習は、囲碁などのゲームにおける高度な性能によって注目されている技術ですが、大規模言語モデルのファインチューニングやロボット制御など、実世界のタスクへ応用するには安全性に関する制約条件が重要となります。例えば、チャットボットでの有害な発言を防ぐための制約や、ロボットが人に危害を加えないための制約を考慮する必要があります。近年、このような安全性を考慮した強化学習が盛んに研究されてきましたが、以下2点の問題がありました。

1.安全性制約に関する定式化がさまざま存在し、それぞれの関係性が十分に議論されていない
2.理論と応用を両立するアルゴリズムが少ない

本研究の貢献はこの2点の問題それぞれに解決案を提示しています。1点目の解決案として、従来研究されてきた主要な3種類の安全性制約を包括する「一般化安全探索(Generalized Safe Exploration, GSE)問題」を定式化し、その妥当性および有用性を理論的に示しました。この定式化したGSE問題は、従来に比べ扱いやすくアルゴリズムの設計が容易になるため、安全性を考慮した強化学習の研究と応用がより一層加速されることも期待されます。2点目の解決案として、上記のGSE問題を解くためのアルゴリズムであるMeta Algorithm for Safe Exploration(MASE)を提案し、それによって得られる方策の安全性と最適性に関する性能を理論・実験の両面において評価しました。このアルゴリズムによって、深層強化学習のような複雑な強化学習アルゴリズムの安全性を向上させることが期待できます。

 /stf/linecorp/ja/pr/line_20230929_image01.png

 図1: 実験による評価。提案手法(MASE)と既存手法における最適性と安全性に関する性能の比較
提案手法において、報酬に関する性能を大幅に下げることなく、安全性に関する性能を向上させていることがわかる

 

採択された論文

1.Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms
Akifumi Wachi, Wataru Hashimoto, Xun Shen, Kazumune Hashimoto

2.Direct Preference-based Policy Optimization without Reward Modeling
Gaon An, Junhyeok Lee, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song

※1はLINE主著(大阪大学との共同研究)、2は他団体との共著の論文です。

LINEではAI技術を活用した新たなサービスの創出を進めるとともに、AI技術そのものの研究開発活動にも注力しています。2023年には、音声・音響信号分野における世界最高峰の国際会議「INTERSPEECH 2023」に4本の論文が採択*1されました。さらに、コンピュータビジョン分野における世界最高峰の国際会議「ICCV 2023」に2本の論文が採択*2されるなど、着実な実績を納めています。また、2023年に大阪大学との共同研究講座である「LINE Virtual Human 共同研究講座」を開設*3をするなど、オープンな枠組みで研究開発を推進しています。

 

*1 2023年6月30日発表プレスリリース:https://linecorp.com/ja/pr/news/ja/2023/4606
*2 2023年8月14日発表プレスリリース:https://linecorp.com/ja/pr/news/ja/2023/4646
*3 2023年4月25日発表プレスリリース:https://linecorp.com/ja/pr/news/ja/2023/4554

LINEは、今後もAI技術に関連した基礎研究を積極的に推進することで、既存サービスの品質向上や、新たな機能・サービスの創出に努めてまいります。