LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

Lucene/Elasticsearch の Character Filter でユニコード正規化するとトークンのオフセットがズレるバグへの Workaround

こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。

この記事の内容

Elasticsearch の Character Filter でユニコード正規化を適用したとき、Tokenizer の結果によってはトークンのオフセットに不正な値が入るバグが報告されています。

github.com

頻繁に起こるケースでは無いのですが、実際にデータを Elasticsearch に取り込む際に発生しており、恒久的な対応が必要です。本記事では、そのバグの内容と原因を説明し、その Workaround を提案します。

本記事で想定する Lucene/Elasticsearch のバージョンは以下です。

  • Lucene: 9.8.0
  • Elasticsearch: 8.11.1

本記事は、Elasticsearch の基本的な使い方(リクエストの投げ方など)はある程度知っている前提で記述します。

追記(2024-06-02):この内容は Search Engineering Tech Talk 2024 Spring で発表しました。その際のスライドを以下に公開しました。

Lucene/Elasticsearch の Character Filter でユニコード正規化するとトークンのオフセットがズレるバグへの Workaround - Search Engineering Tech Talk 2024 Spring - Speaker Deck

続きを読む

ネットワーク分析を用いた文書参照関係の分析

はじめに

株式会社LegalOn Technologies でデータアナリストをしている高木 要です。LegalOn Technologiesではデータ分析業務に積極的に取り組んでおり、我々データアナリストチームは各部門のステークホルダーとともに製品やビジネスの価値をデータから評価できるようにデータ分析を行なっています。分析内容は多岐に渡り、製品利用状況や営業データなどを用いて、プロダクト開発やビジネスにおける意思決定精度の向上に努めています。

今回は「ネットワーク分析を用いたお客様の法律文書ナレッジマネジメント状況の可視化」についてご紹介いたします。

続きを読む

「生成 AI を搭載したプロダクト開発」というタイトルでデブサミ2024に登壇しました!

こんにちは!LegalOn Technologiesのソフトウェアエンジニア、渡辺です。

2024年2月15日から16日にかけて開催された"Developers Summit 2024"(以下、デブサミ)に参加し、「生成AIを搭載したプロダクト開発~少人数で爆速リリースしてわかったこと~」というテーマで発表しました。

今回は、発表までの過程、スケジュール、発表内容、そして発表後の感想について書かせていただきます。

続きを読む

4年ぶりの開催!検索技術勉強会 - 2023 - イベントレポート&インタビュー

こんにちは、LegalOn Technologiesにてエンジニアリング推進グループに所属の荒木と申します。

2023年12月20日、弊社オフィスにて「検索技術勉強会(以降 勉強会)」が開催されました。

この勉強会の内容と「なぜオフライン勉強会を再開したのか」について、弊社の検索・推薦グループのエンジニアへインタビューを行いました。本記事ではこれらについてレポートします。

続きを読む

検索クエリパーサー自作入門

はじめに

こんにちは。株式会社LegalOn Technologies でエンジニアをしております、勝田(@WinField95)です。この記事は、情報検索・検索技術 Advent Calendar 2023 の 20日目の記事として執筆されました。

この記事では、ANTLR[1]を使用したシンプルなクエリ構文の解析を行う検索クエリパーサーの生成と、解析結果から Elasticsearch の Query DSL[2]への変換までのプロセスと簡単な実装を紹介します。実務では、要求に応じて複雑なクエリ構文の文法定義が必要になる場合もありますが、この記事ではなるべく簡単なクエリ構文を取り扱います。解説で使用するコードは、この GitHub のリポジトリで公開しますので、参考にしてみてください。また、Search Engineering Tech Talk 2023 Winter では、この記事の内容をもとに発表を行いました。ぜひスライドもご覧ください。

docs.google.com

github.com

続きを読む

シフトレフトを実現する仕様確認会:QAエンジニア主導の新たな取り組み

はじめに

こんにちは。株式会社LegalOn Technologies で品質保証(QA)エンジニアをしております、リンです。

2021年にLegalOn Technologiesでキャリアをスタートしました。入社当時、QAチームはたった3人で、品質保証プロセスもまだ発展途上でした。時間が経つにつれ、会社は急速に成長し、現在では、QAエンジニアの数も19人に増えています。組織が成長すると共に、最も効果的な品質保証プロセスを見つけるための探求は続いています。

この記事では、その過程で取り入れた新しい取り組みについて説明します。

続きを読む