LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

Jaccard係数に基づく類似文書検索の高速化技法

こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。 本記事では、Jaccard係数に基づく類似文書検索の高速化技法を解説し、契約書検索での実験結果を報告します。

社内勉強会で使用したSimCSEのチュートリアル資料を公開しました

こんにちは、LegalOn Technologies Researchで研究員をしている神田(@kampersanda)です。 弊社では、検索チーム主催でセマンティック検索とベクトル検索に関する社内勉強会を定期的に実施しています。この勉強会では、技術に関心のあるエンジニアが有志で…

論文「Engineering faster double-array Aho-Corasick automata」が学術誌「Software: Practice and Experience」に採択

こんにちは。LegalOn Technologies Researchで研究員をしている神田 (@kampersanda) です。 この度、論文「Engineering faster double-array Aho-Corasick automata」がソフトウェア系の有名学術誌「Software: Practice and Experience」に採択されました。 …

MeCab互換な形態素解析器Vibratoの高速化技法

こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは、MeCab互換の形態素解析器Vibrato(ヴィブラ〰ト)を開発しています。プログラミング言語Rustで実装しており、高速に動作することが主な利点です。Vi…

高速な文字列探索:Daachorseの技術解説

こんにちは。LegalForce Researchで研究員をしている神田 (@kampersanda) です。 LegalForce Researchでは現在、高速なパターンマッチングマシン Daachorse(ダークホース)を開発・運用しています。文字列処理の基礎である複数パターン検索を提供するRust製…