LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

2024-05-01から1ヶ月間の記事一覧

Lucene/Elasticsearch の Character Filter でユニコード正規化するとトークンのオフセットがズレるバグへの Workaround

pre.code{ white-space: pre; overflow-x: scroll; } こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。 この記事の内容 Elasticsearch の Character Filter でユニコード正規化を適用したとき、Tokenizer の結果によって…