LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

Research

Jaccard係数に基づく類似文書検索の高速化技法

こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。 本記事では、Jaccard係数に基づく類似文書検索の高速化技法を解説し、契約書検索での実験結果を報告します。

社内勉強会で使用したSimCSEのチュートリアル資料を公開しました

こんにちは、LegalOn Technologies Researchで研究員をしている神田(@kampersanda)です。 弊社では、検索チーム主催でセマンティック検索とベクトル検索に関する社内勉強会を定期的に実施しています。この勉強会では、技術に関心のあるエンジニアが有志で…

論文「Engineering faster double-array Aho-Corasick automata」が学術誌「Software: Practice and Experience」に採択

こんにちは。LegalOn Technologies Researchで研究員をしている神田 (@kampersanda) です。 この度、論文「Engineering faster double-array Aho-Corasick automata」がソフトウェア系の有名学術誌「Software: Practice and Experience」に採択されました。 …

MeCab互換な形態素解析器Vibratoの高速化技法

こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vi…

高速な文字列探索:Daachorseの技術解説

こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは現在、高速なパターンマッチングマシン Daachorse(ダークホース)を開発・運用しています。文字列処理の基礎である複数パターン検索を提供するRust製…

速度の高みを目指す:高速な単語分割器 Vaporetto の技術解説

こんにちは。LegalForce Research でエンジニアをしている赤部 (@vbkaisetsu) です。 今回は、弊チームが開発した新しい高速な単語分割器 Vaporetto(ヴァポレット)の技術解説を行います。Vaporetto はプログラミング言語 Rust で開発されています。想定す…

マルチテナンシー下での Query Auto Completion 設計・運用戦略

こんにちは,LegalForce R&D セクションでエンジニアをしている打田(@moco_beta)です。 LegalForce では,お客様がアップロードした契約書を条文単位で検索ができる,条文検索機能を提供しています。AIによるレビュー支援機能を補完する形でよく利用されて…