Data Engineeringセンター

Data Platform室

参考情報一覧

組織・業務紹介

Introduce Data Platform Department

 

本記事では社内のデータ分析基盤を提供しているData Platform室について「どんな人がいるのか、どんな技術を使っているか」などを社内アンケートの結果を踏まえつつ紹介します。

 

 

“超”大規模データを扱うからこそ直面した事象。HDFS Erasure Codingの不具合を解消するまで

 

LINEのData Platform室では、さまざまなサービスのデータをApache HDFS(以下、HDFS)に格納しています。
HDFSクラスターに保存されているデータ量は、合計で数百ペタバイトと極めて膨大なため、インフラコストを削減することは、Data Platform室の重要な役割のひとつです。
現在様々な利点からErasure Codingという機能を適用していますが、Erasure Codingには特定の条件下で発生する不具合があり、LINEでもその事象に直面しました。その原因を特定しコード修正をすることで、OSSへのコントリビューションを行ったエンジニアがその詳細を紹介いたします。

 

 

LINEの大規模なData PlatformにData Lineageを導入した話

 

Data Platform室では、約400ペタバイトのデータ分析基盤を運用しており、Data Pipelineが複雑になるにつれて、データに関する問題が発生した際のデータの関係性の把握が難しくなっていました。この問題を解決するために、Data Lineage機能を導入しました。本記事では、導入したData Lineage機能と、機能開発時に発生した問題及びその解決方法についてご紹介しています。

 

 

LINEのData Platformにおけるデータ利用環境を開発しているチームを紹介します

 

LINEのデータプラットフォームにおけるデータカタログを開発しているIU Devチームのインタビューを公開しました。LINE社内で安全かつ効率的なデータ利用環境の構築に取り組んでいるメンバーに、組織体制や仕事のやりがい、現在の課題などについて聞きました。

イベント登壇記事

LINE DEVELOPER DAY 2021

 

 

分断されてしまったデータを2000台を超えるひとつのデータプラットフォームに統合した話

 

LINEでは現在200PBを超えるデータ分析基盤を運用しています。しかし、かつては組織別に複数のHadoopクラスタが存在し、複雑なデータのやり取りやマシンリソースの非効率性、データ管理ポリシー・技術スタックの違いなど、データの利活用を促進する上で大きな課題がありました。

 

この問題を解決するために、適切な権限管理の元で権限を付与された全てのLINE社員が、ただ一つの環境でデータ分析を行えるよう、これら複数のHadoopクラスタを一つに統合するプロジェクトが発足しました。LINE全サービスのデータを抱え、2000台を超えるスケールをもつ分析基盤を、なるべくサービスに影響を与えず移行するためにとった技術的・データマネジメント的アプローチを紹介いたします。

 

 

LINEデータプラットフォームにおけるApache Icebergの導入

 

Apache Icebergは、スナップショットの概念によってテーブル内のファイルを追跡する次世代のテーブル形式です。この設計は、大規模な低遅延データパイプラインの構築や変化するテーブルの信頼性の高いサポートなどのデータプラットフォームの課題への対応に役立つことが期待されています。

 

このセッションでは、LINEでのApache Iceberg採用のモチベーションと予想されるユースケースについて概説し、Apache Icebergによって当社のログデータパイプラインアーキテクチャを刷新する現在進行中のプロジェクトを紹介します。

 

 

大規模なHDFS Erasure Codingにおける技術的課題

 

LINE Data Platformでは、LINEのさまざまなサービスのデータをApache HDFSに格納しています。統一されたHDFSクラスターには、現在、数百ペタバイトものデータが保存されています。これらのデータを効率的に保存し、インフラコストを削減することは、最も重要なミッションのひとつです。

 

私たちはHDFSのErasure Coding(EC)を評価しており、すでに一部の本番データのアーカイブに適用しています。ECは、デフォルトの3倍レプリケーション方式に比べて、耐障害性を損なうことなく、約2倍の効率でデータを保存することが可能です。ECは、HDFS3.0で導入された比較的新しい機能ですが、大規模に採用するには多くの課題がありました。本セッションでは、それらの課題をどのように克服し、OSSコミュニティに貢献してきたかについてお話します。

その他外部メディア記事

LINEのデータプラットフォームが目指すべき未来

 

Data Platform室のエンジニアリングマネージャーが組織の概要や将来のチームビジョンなどを説明した資料をspeakerdeckに公開しています。

© LINE Corporation