こんにちは、LegalOn Technologies検索・推薦チームの志水です。
私たちのチームでは Elasticsearch へのデータのインデキシングをCloud PubSub を queue として挟んで非同期にしており、その処理にDataflowを活用しています。Dataflow(=Google managed Apache Beam) はサーバーレスでスケーラブルなデータ処理を得意としています。
Python を用いたDataflowの活用については、例えばこちらの記事が網羅的です。
この記事では似たような観点に加え、Docker上で動かす工夫やintegration testの工夫も合わせて書いていければと思います。
続きを読む