はじめに
こんにちは。株式会社 LegalOn Technologies 検索・推薦チームのエンジニアをしております、勝田です。この記事は、情報検索・検索技術 Advent Calendar 2024 の19日目の記事として執筆されました。
2024年12月9日から12日にかけて開催された SIGIR-AP 2024 に、スポンサーとして参加しましたのでレポートをお届けします。
SIGIR-AP とは
SIGIR-AP は ACM が毎年主催する情報検索に関する国際会議です。情報検索分野のトップカンファレンスである国際会議 SIGIR のアジア・太平洋版として、この地域における情報検索の研究開発を促進することを目的としています。
今回の SIGIR-AP 2024 は第二回目となり、東京の早稲田大学で開催されました。(第一回目は中国の北京で開催されました。) 本会議では、厳選された情報検索に関する31件の論文発表と、ACM Transactions on Information Systems(TOIS)論文誌から採択された6件の論文発表が行われます。
参考:
SIGIR-AP 2024
ACM SIGIR-AP 2024 参加募集案内
会議で扱うトピックについて
SIGIR-AP のトピックは SIGIR と同じです。 以下が含まれますが、これらに限定はされないようです。
- Search and Ranking
- System, Efficiency, and Scalability
- Recommender Systems
- Machine Learning and NLP for IR
- Conversational IR
- Humans and Interfaces
- Evaluation
- Fairness, Accountability, Transparency, Ethics, and Explainability (FATE) in IR
- Multimodal IR
- Domain-specific Applications
- Other IR Topics
参考:
SIGIR-AP 2024 CALL FOR PAPERS TOPICS OF INTEREST
参加登録について
SIGIR-AP 2024の参加登録方法には、4-Day Passport と Workshop only の2種類があり、早期登録者、オンライン参加者、ACM 会員、学生には割引が適用されます。
- 4-Day Passport
全てのカンファレンスイベントに参加可能です。また、お弁当や懇親会の食事が提供されます。 - Workshop only
ワークショップのみへの参加が可能ですが、昼食などは提供されません。
検索・推薦チームからは合計6名が参加し、そのうち3名が現地参加し、3名がオンラインで参加しました。
余談ですが、私自身は Late での申し込みとなったため、 Regular 登録期間の割引を逃してしまいました…。SIGIR-AP 2024 では、申し込み時期によって参加費用が変動するため、次回以降に参加される方は早めの登録をお勧めします。
参考:
ACM SIGIR-AP 2024 参加募集案内
SIGIR-AP-2024 CAL FOR PAPERS
スポンサーブース
LegalOn Technologies は SIGIR-AP 2024 のスポンサーとしてブースを出展し、多くの参加者との交流機会を得ました。来場者の方々と弊社の取り組みについて意見を交換し、充実した議論を展開することができました。
特に印象に残ったのは、海外でも法律分野の研究が活発に行われているということでした。 法律に関連する LLM の研究者から、法的文書の研究経験を持つ研究者まで、様々な方々が来場され、法務領域に特化した弊社製品に大きな関心を示してくださいました。
ポスターの紹介
ブースでのポスター展示の機会を活用し、当社の取り組みを紹介するポスターを作成しました。 このポスターの内容について簡単に紹介させていただきます。
LegalOn Technologies について
LegalOn Technologies は、弁護士の法務知見と最先端のテクノロジーを組み合わせ、企業法務業務の品質向上と効率化を実現するソフトウェアを提供しています。企業活動は契約書をもとに行われますが、その作成・管理には多大な労力とコストを要します。当社の AI法務プラットフォーム 「LegalOn Cloud」は、契約書の作成や審査・管理業務の効率化とリスク管理を実現するだけにとどまらず、法務業務を包括的にサポートするサービスです。
契約書データの収集と分析について
契約書は多くの企業にとって機密情報であり、通常は公開されることはありません。ただし、より優れた機能開発のためには多くの契約書データが不可欠となります。そこで弊社では、ユーザーから許諾を得た契約書をデータとして収集し、匿名化とアノテーションの工程を実施します。
その後、社内の研究開発者と弁護士資格を持つ開発者による分析を行っています。これらの分析結果を活用して、新機能の開発や既存機能の改善を行っています。
自動契約書レビュー機能について
「LegalOn Cloud」の代表的な機能として自動レビュー機能があります。この機能は、契約書データをクエリとして使用し、契約書に潜在するリスクを提示します。この機能によってレビュー業務の工数を削減することができています。
LLMを応用した機能について
最近では LLM の製品利用も進んでおり、「LegalOnアシスタント」や「案件ラベル生成」といった機能として活用しています。「LegalOnアシスタント」は法務向けのチャットボットで、ユーザーからの幅広い指示や質問に対応できます。一方、「案件ラベル生成」は、法務相談案件や相談文面から論点に関連するラベルを自動生成する機能です。これにより、案件の論点を素早く把握でき、さらにこれらのラベルは検索キーワードとしても活用できます。
条文検索と検索結果の多様化について
ポスターでは、条文検索機能とリランキングについての紹介をしています。 条文検索機能には、2つの主要な検索意図があります。1つは締結済みの契約書から特定の条文を探す Navigational な検索意図、もう1つは条文作成時の参考となる文例を探す Informational な検索意図です。契約書の条文は表現が類似していることが多く、検索結果の上位に似通った条文が集中してしまうという課題がありました。この課題に対し、弊社の条文検索では、同一内容の条文を検索時に集約し、さらにJaccard類似度に基づいて類似条文が上位に偏らないようリランキングを行っています。この工夫により検索結果の多様性が向上し、ユーザーが求める条文をより見つけやすくなっています。
今後の取り組みについて
検索技術に関する今後の取り組みとして、法務に関連する様々なデータに基づいた高度な推薦機能の開発を進めています。また、A/B テストを実現するためのFeature Flag 機能の導入も進めています。
SIGIR-AP 2024の様子
西早稲田キャンパス63号館のエントランスには、SIGIR-AP 2024 の横断幕が掲げられており、来場者を迎えていました。会場内には研究発表のポスター、スポンサーブース、コーヒーブレイク用のコーヒーサーバーが設置され、併設のカフェテリアは休憩スペースとして利用できるようになっていました。2階のセミナールームでは、カンファレンスの研究発表が行われていました。
カンファレンスは Sustainability(持続可能性)を主要な方針の一つとして掲げ、二酸化炭素排出量や廃棄物の削減、研究者の作業負荷の軽減に重点を置いていました。参加者には再生プラスチック製のカップが提供され、これを使用してコーヒーや紅茶を楽しむことができました。さらに、オンライン参加者向けにサテライト会場からの参加機会も設けられています。また、会場では、ヴィーガン料理を含む多様なお弁当が用意され、参加者の食文化に十分な配慮がなされていました。
カンファレンスは、1日目にチュートリアル、2日目と3日目に基調講演とメインカンファレンス、4日目にワークショップが開催されました。3日目の夜には懇親会が開かれ、参加者同士が食事を楽しみながら交流する機会となりました。
セッションレポート
セッションレポートでは、BEST PAPERS と、検索・推薦チームのメンバーが SIGIR-AP 2024 に参加して、特に印象に残った発表について報告させていただきます。また、SIGIR-AP 2024 のプログラムの詳細はこちらになります。
Best paper award
Generative Retrieval with Semantic Tree-Structured Identifiers and Contrastive Learning
著者:Zihua Si, Zhongxiang Sun, Jiale Chen, Guozhang Chen, Xiaoxue Zang, Kai Zheng, Yang Song, Xiao Zhang, Jun Xu and Kun Gai
論文リンク:https://arxiv.org/abs/2309.13375
概要:この研究は、レコメンデーションのための Generative Retrieval Model である「SEATER」の提案をしています。近年、DSI や NCI などの Generative Retrieval Methods は、文書検索において目覚ましい性能向上を示し、新たなパラダイムとなりつつあります。しかし、生成される意味空間上のツリーが不均衡になりやすく、その結果、不統一な長さの識別子が生じます。これによってアイテムの推論時間が長くなり、最適なパフォーマンスを得られないという課題がありました。「SEATER」は、バランスの取れた意味空間上のツリーを構築することで、この効率性と有効性の両立を実現しています。3つの公開データセットと産業用データセットを使用した広範な実験により、「SEATER」がさまざまなタイプの SOTA モデルを常に上回る性能を発揮することが検証されています。
感想:近年の製品開発では近似最近傍探索(ANN)が広く活用されています。研究分野では、単一ベクトルによる表現だけでなく、複数ベクトルによる表現や意味空間上のツリーにおける root-to-leaf パスによる表現など、多様なアプローチが発展しており、大変勉強になりました。また、「SEATER」のツリー構築のアプローチは、領域木と平衡二分探索木の概念を組み合わせたような方針であると感じ、非常に納得感がありました。
レポーター:Kyugo Katsuta
Best paper honorable mention
LLMs can be Fooled into Labelling a Document as Relevant
著者:Marwah Alaofi, Paul Thomas, Mark Sanderson and Falk Scholer
論文リンク:https://dl.acm.org/doi/10.1145/3673791.3698431
概要:この研究は、検索クエリに対する関連性の高い文書のラベル付けにおけるLLMの性能を調査しています。高性能なLLMは人間に匹敵する性能を示すものの、人間よりも「関連あり」とラベル付けする傾向が強く、単にクエリ語を含む文書を「関連あり」と判断したり、「この文章は関連している」という入力に影響されやすいことが分かりました。LLMのラベル付けにはバイアスが生じるリスクがあるため、実運用においては慎重に評価する必要があります。
感想:文書の検索クエリに対する関連性を評価するプロセスは、テストコレクションの作成に不可欠ですが、非常に労力のかかる作業です。そのため、LLMによってこの作業が簡略化される可能性は魅力的だと思います。ただし、LLMでのラベル付けを単純に適用するだけでは不十分で、バイアスを慎重に考慮する必要があることを学べたのは有益でした。今後、業務でLLMを使用してテストコレクションを作成する際は、このバイアスの可能性を十分に考慮していきたいと思います。また、情報抽出や文書内のコンテンツへのラベル付与といった他のタスクにおいても、LLMがどのようなバイアスを示すのかについて興味が湧きました。
レポーター:Kyugo Katsuta
参考:
https://www.sigir-ap.org/sigir-ap-2024/bestpapers/
印象に残った発表
LeKUBE: A Legal Knowledge Update BEnchmark
著者:Changyue Wang, Weihang Su, Hu Yiran, Qingyao Ai, Yueyue Wu, Cheng Luo, Yiqun Liu, Min Zhang and Shaoping Ma
論文リンク: https://arxiv.org/abs/2407.14192
概要:法的知識の更新に関する大規模言語モデル (LLM) の評価基準「LeKUBE」を提案しています。法律の改正や新しい法令の追加に伴い、LLM が新旧の法的知識を正確に学習・適用できるかを測定する必要性があります。
手法は大きく分けて、RAG (Retrieval-Augmented Generation) のような外部のデータベースを参照して知識を取得する Non-parametric なアプローチと、fine-tuning や ROME、KN、Self-Edit といったモデル内部の重みを直接編集して新しい知識を埋め込む parametric なアプローチが存在します。
LeKUBE は、刑法や民法の改正を模倣した更新データを作成し、モデルがどの程度この変更を学習できるかを評価しました。評価は、正確性、汎用性、局所性、スケーラビリティ、保持性の5つの観点から行われ、結果、Self-Edit は推論が必要な複雑なタスクに有効で、ROME と KN は単一の知識を効率的に更新する際に優れるものの、複雑な法的推論タスクでは効果が限定的でした。
感想:法務ユーザーは正確かつ最新の情報を求めているため、弊社でも法令の更新や追加に対応していく必要があります。モデル全体を再訓練せず、必要な箇所だけ更新を行う手法 (ROME や KN などのモデル編集手法)は、全体の学習コストを削減しつつ、継続的に知識を更新できる点で有用だと感じました。
また、最近主流となっている RAG との精度比較もされており、モデル自体を編集すると過去の情報が消えたり、複数回更新すると conflict を引き起こす可能性があるところが課題だと感じました。
さらに、法規制の変更には長文のテキストが多く含まれ、他のドメインと比較して高度な推論が求められたり、パラフレーズが難しいという、リーガルドメイン特有の課題にも言及されていた点が印象的でした。
レポーター:Maoya Sato
Workshop 1: R3AG - First Workshop on Refined and Reliable Retrieval Augmented Generation
著者:Zihan Wang, Xuri Ge, Joemon Jose, Haitao Yu, Weizhi Ma, Zhaochun Ren and Xin Xin
論文リンク: https://dl.acm.org/doi/10.1145/3673791.3698435
概要:RAG(Retrieval-Augmented Generation)の主要な課題に焦点を当てています。具体的には、ユーザー意図の理解、複雑なドキュメントの解析、信頼性の高い情報検索、応答の評価と改善、そしてマルチモーダル対応について議論が行われました。
RAGにおける信頼性の高い検索に関する事例を紹介します。
- Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness
- この研究は、プロンプト内の情報、特に誤った情報がモデルの回答に与える影響を分析しています。ChatGPTの健康関連質問への回答精度について、モデル内部の知識とプロンプトの外部知識の組み合わせで評価を行いました。その結果、質問のみの場合は80%の正確性を示した一方で、エビデンス付きの場合は63%まで低下しました。さらに、プロンプトに誤った情報が含まれると、モデルの内部知識が上書きされ、正確性が低下することが明らかになりました。
- The Power of Noise: Redefining Retrieval for RAG Systems
- RAGシステムにおける情報検索(IR)の重要性を再評価し、LLMの効果を最大化するための最適な文書取得戦略を探求した研究です。この研究は、RAGシステム内で取得する文書の種類、位置、数がLLMの性能に与える影響を分析しています。興味深いことに、関連性の高い文書でも答えを含まないものはモデルの性能を低下させる一方で、プロンプトにランダムな文書を追加すると、LLMの精度が向上するという知見が得られました。
感想:RAG は精度の高い情報を提供することが可能ですが、システムのロバスト性を高め、ノイズや矛盾する情報の影響を最小限に抑えることが重要だと感じました。特にLegal Techは法律分野を扱うため、情報の正確性が重要になります。そのため、プロンプト内の情報の信頼性を評価し、モデルが誤った情報に影響されにくい手法を検討すること。また、モデルの出力の透明性を向上させ、ユーザーが回答の信頼性を容易に判断できる仕組みの構築も重要な課題だと考えています。
レポーター:Junya Usui
Triple Augmented Generative Language Models for SPARQL Query Generation from Natural Language Questions
著者:Jack Longwell, Mahdiyar Ali Akbar Alavi, Fattane Zarrinkalam and Faezeh Ensan
論文リンク: https://dl.acm.org/doi/10.1145/3673791.3698426
概要:ナレッジグラフの知識を組み込んだシステムに自然言語の質問を投げかけて正しく応答させる、Knowledge Graph Question Answering (KGQA)というタスクがあります。ナレッジグラフに対して直接投げられるクエリは、SPARQL という言語で書かれたクエリです。この論文では、KGQA の SPARQL クエリ生成部分に大規模言語モデルを組み込むことがどのくらい有効かを実験で検証しています。最初に簡易的にナレッジグラフから関係のありそうなトリプレット(知識の最小単位)を全文検索で取り出し(triple retrieval)、大規模言語モデルに前提知識として与えることで精度が上がることを確認していました。ただし、triple retrieval の正しさが理想的だと仮定すると、大規模言語モデルは更に精度高くクエリを生成出来、その改善は大幅なものであることも実証されています。triple retrieval 自体の手法をより洗練させていくことで最終的な結果がより良くなることが示唆されていました。
感想:いわゆる Retrieval-Augmented Generation において、データベース部分はベクトルデータベースを使うのがデフォルトのような風潮があります。これをナレッジグラフ・RDB・NoSQL・全文検索エンジンなどに拡張することはどのくらい筋が良いのだろう、と普段から少し考えていました。システムを拡張していけばいくほど、細かいサブタスクが増えていってそれぞれのチューニングが複雑になることは予想できます。この研究ではその肌感が少し分かった気がしました。おそらくは、大規模言語モデルのポテンシャルが比較的高いので、サブタスクにも出来るだけ大規模言語モデル自体を使えばある程度上手くいってしまうのではないかとは思います。しかしながら、コストやパフォーマンスといった別の問題が発生するので、そこをどう節約していくか、ということが人間の考えることになるのではないか、という所感でした。
レポーター:Shuntaro Miyazato
まとめ
SIGIR-AP では、情報検索(IR)の幅広い分野における最新の研究成果発表と、新しいシステムや技術のデモンストレーションが行われます。今回で第二回目を迎え、今後も定期的に開催される予定です。会場の雰囲気も盛り上がりがあり、多くの学びも得られる機会なので、今後も積極的に参加していきたいと考えています。また、スポンサーとしても情報検索に関する研究活動の発展に貢献できることを願っています。
謝辞
検索・推薦チームの浅野さんには国際会議へのスポンサー参加の意思決定をいただき、CAIO (Chief AI Officer)の Joeさんにはチームメンバーの参加費用の予算を調整していただき、深く感謝します。スポンサーブースの準備と当日の運営にあたっては、弊社の荒木さん、星野さん、CDO (Chief Design Officer)の矢野さんから多大なご協力をいただき、大変助かりました。また、検索・推薦チームの皆さまにも多くのサポートをいただき、心より感謝申し上げます。
仲間募集
LegalOn Technologies では現在、エンジニアを積極的に募集しています。 ご興味をお持ちの方は、以下の求人一覧をご確認ください。