LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

Dataflow 実践開発セットアップ

こんにちは、LegalOn Technologies検索・推薦チームの志水です。

私たちのチームでは Elasticsearch へのデータのインデキシングをCloud PubSub を queue として挟んで非同期にしており、その処理にDataflowを活用しています。Dataflow(=Google managed Apache Beam) はサーバーレスでスケーラブルなデータ処理を得意としています。

Python を用いたDataflowの活用については、例えばこちらの記事が網羅的です。

この記事では似たような観点に加え、Docker上で動かす工夫やintegration testの工夫も合わせて書いていければと思います。

続きを読む

JaSST24’Tokyoで「生成AIでテストコード生成の効率化」をテーマに登壇しました

2024年3月の14〜15日に開催されたJaSST’24 Tokyoというソフトウェアテストシンポジウムに「生成AIを使ったテスト記述の最適化と生産性向上」をテーマに登壇しました。

こんにちは!LegalOn TechnologiesでSoftware Engineer in Test(SET)をしている山本です。

本記事では、登壇の発表内容や感想についてお話できればと思います。

※オンライン登壇であったため、写真を用意することができず申し訳ありません。

セッション概要

続きを読む

Lucene/Elasticsearch の Character Filter でユニコード正規化するとトークンのオフセットがズレるバグへの Workaround

こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。

この記事の内容

Elasticsearch の Character Filter でユニコード正規化を適用したとき、Tokenizer の結果によってはトークンのオフセットに不正な値が入るバグが報告されています。

github.com

頻繁に起こるケースでは無いのですが、実際にデータを Elasticsearch に取り込む際に発生しており、恒久的な対応が必要です。本記事では、そのバグの内容と原因を説明し、その Workaround を提案します。

本記事で想定する Lucene/Elasticsearch のバージョンは以下です。

  • Lucene: 9.8.0
  • Elasticsearch: 8.11.1

本記事は、Elasticsearch の基本的な使い方(リクエストの投げ方など)はある程度知っている前提で記述します。

追記(2024-06-02):この内容は Search Engineering Tech Talk 2024 Spring で発表しました。その際のスライドを以下に公開しました。

Lucene/Elasticsearch の Character Filter でユニコード正規化するとトークンのオフセットがズレるバグへの Workaround - Search Engineering Tech Talk 2024 Spring - Speaker Deck

続きを読む

ネットワーク分析を用いた文書参照関係の分析

はじめに

株式会社LegalOn Technologies でデータアナリストをしている高木 要です。LegalOn Technologiesではデータ分析業務に積極的に取り組んでおり、我々データアナリストチームは各部門のステークホルダーとともに製品やビジネスの価値をデータから評価できるようにデータ分析を行なっています。分析内容は多岐に渡り、製品利用状況や営業データなどを用いて、プロダクト開発やビジネスにおける意思決定精度の向上に努めています。

今回は「ネットワーク分析を用いたお客様の法律文書ナレッジマネジメント状況の可視化」についてご紹介いたします。

続きを読む

「生成 AI を搭載したプロダクト開発」というタイトルでデブサミ2024に登壇しました!

こんにちは!LegalOn Technologiesのソフトウェアエンジニア、渡辺です。

2024年2月15日から16日にかけて開催された"Developers Summit 2024"(以下、デブサミ)に参加し、「生成AIを搭載したプロダクト開発~少人数で爆速リリースしてわかったこと~」というテーマで発表しました。

今回は、発表までの過程、スケジュール、発表内容、そして発表後の感想について書かせていただきます。

続きを読む