LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

IR Reading 2023 Spring 参加レポート

こんにちは、検索・推薦チームの浅野(@takuya_b / @takuya_a)です。

2023年6月10日に開催された IR Reading 2023春に、弊社の勝田(検索・推薦)、宮里(検索・推薦)と参加しました。

今回は、そちらの様子をレポート形式でお届けします。

IR Reading とは

情報検索に関連する、直近の国際会議で発表された論文の読み合わせを行う勉強会です。5分〜15分の発表+質疑応答、という形式で行われており、ACM SIGIR 東京支部の方々によって運営されています。

今回参加した IR Reading 2023春では、主に以下の国際会議の論文が対象となっていました。

セッションレポート

Accelerating Learned Sparse Indexes Via Term Impact Decomposition (EMNLP 2022) [1]

Learned Sparse Retrieval (LSR) での OR 検索を高速化する、Term Impact Decomposition [1] という手法についての論文紹介でした。

私は List Splitting も Postings Clipping も知見がなかったので勉強になりました。実験も非常に comprehensive に行われていたので、納得感のある内容でした。

資料もわかりやすく、前提知識があまりなくても手法のモチベーションや findings が理解できました。

Optimizing Guided Traversal for Fast Learned Sparse Retrieval (WWW 2023) [2]

  • 発表者:浅野 卓也(株式会社LegalOn Technologies)
  • 紹介論文へのリンク:ACM Digital Library
  • 発表資料へのリンク:Google Slide
  • 報告:浅野

中野さんの発表と同じく、 LSR の OR 検索の高速化するための 2GTI [2] という手法の論文を紹介しました。先行研究である GT (guided traversal) [3] という手法も初耳だったのですが、BM25 の転置インデックスのポスティングの重みに LSR の重みを結合してエンコードするというアイデアが興味深かったです。

2GTI のほうはパラメータが多いために扱いにくく見えましたが、同時に提案されていた scaled alignment (スケール埋め)というテクニックについては、この分野での汎用性があり、そちらの貢献のほうが大きいかなという印象を受けました。

Multiview Representation Learning from Crowdsourced Triplet Comparisons (TheWebConf 2023) [4]

  • 発表者:Xiaotian Luさん(京都大学
  • 紹介論文へのリンク:arXiv
  • 報告:勝田

Triplet similarity comparison という「与えられた3つの物体のうち 、どの2つがより似ているか」というアノテーションのタスクにて、ワーカー間で異なる属性の観点(view)で比較することにより、異なる結果が得られてしまうことがあるようです。このような課題に対するエンドツーエンド深層学習フレームワークの提案をされた論文の紹介でした。

Triplet similarity comparison の課題の説明や、embeddings の t-SNE visualization の結果が、前提知識があまりなくても理解できる内容になっていました。また、問題の解決にあたり、ワーカーの view の好みを反映するワーカーモデルの追加や、ワーカーが view を選択する難易度を triplet entropy を用いて測定するといったアプローチがされており、問題解決のアプローチの勉強になりました。

Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation (WSDM 2023) [5]

ある言語のクエリによって別の言語の文書を検索する、言語横断情報検索というタスクは、単純にクエリを翻訳するだけでは上手くいかないので様々な手法が試されているようです。この論文は、言語横断情報検索において、文書側の言語が低資源言語である時、ColBERT-Xという既存手法(学習済み言語モデルベース)そのままではスコアが低いという問題に取り組んでいます。これは言語間で埋め込みの対応が上手く行っておらず、似た意味の単語が似たベクトルになっていないことが原因です。

提案手法では、小規模な対訳コーパスを利用して言語間で埋め込みの集合同士の距離を近づける(最適輸送問題を解く)ことで埋め込みの対応を学習しています。これにより、高資源単語のクエリ+低資源言語の文書についての検索に対して、人によるクエリ翻訳という介在が存在しない手法の中では最も良い結果を実現した、というのが研究の目玉でした。

私自身は、最適輸送問題という概念自体は聞いたことがありましたが、馴染みのある検索タスクに自然に応用されているという事例は目にしたことが無かったため、新鮮でした。発表スライドでは、図解を入れつつ、時に論文の内容を超えて、最適輸送の導入までの動機・他手法との違いがまとめられていました。最適輸送の手法に馴染みのない私でも理解しやすい内容であったため、非常に参考になりました。

おわりに

IR Reading は、アカデミアで注目されている最新のトピックを、最前線の研究者の方々から聞くことができる贅沢なジョイントイベントです。今後も定期的に開催されるようですので、積極的に参加していく予定です。

インダストリ側からの発表や参加はとても歓迎されていますので、検索推薦エンジニアの方々にも、さらに参加・発表していただけると、界隈も盛り上がっていきそうですね。

宣伝

LegalOn Technologies の検索・推薦チームでは、検索や推薦に興味のあるエンジニアを絶賛募集中です。現在オープンしているポジションは2つあります。

1つ目は、検索推薦チームのバックエンドエンジニアのポジションで、検索推薦機能の開発・運用などが業務内容になります。検索・推薦技術に興味さえあれば、検索・推薦まわりの経験は不問です*1

herp.careers

もう1つは、検索・推薦の分野に専門性をもつシニアエンジニアのポジションです。バックエンドエンジニアとしての業務に加え、検索・推薦のランキング改善をリードいただくポジションです。

herp.careers

もし興味をもっていただけましたら、以下の紹介資料も是非ご覧ください!

参考文献

[1] Joel Mackenzie, Antonio Mallia, Alistair Moffat, and Matthias Petri. 2022. Accelerating Learned Sparse Indexes Via Term Impact Decomposition. (December 2022), 2830–2842.

[2] Yifan Qiao, Yingrui Yang, Haixin Lin, and Tao Yang. 2023. Optimizing Guided Traversal for Fast Learned Sparse Retrieval. In Proceedings of the ACM Web Conference 2023 (WWW ’23), Association for Computing Machinery, New York, NY, USA, 3375–3385.

[3] Antonio Mallia, Joel Mackenzie, Torsten Suel, and Nicola Tonellotto. 2022. Faster Learned Sparse Retrieval with Guided Traversal. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’22), Association for Computing Machinery, New York, NY, USA, 1901–1905.

[4] Xiaotian Lu, Jiyi Li, Koh Takeuchi, and Hisashi Kashima. 2023. Multiview Representation Learning from Crowdsourced Triplet Comparisons. In Proceedings of the ACM Web Conference 2023 (WWW ’23), Association for Computing Machinery, New York, NY, USA, 3827–3836.

[5] Zhiqi Huang, Puxuan Yu, James Allan. 2023. Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation. In Proceedings of the Sixteenth ACM International Conference on Web Search and Data Mining (WSDM ’23), Association for Computing Machinery, New York, NY, USA, 1048–1056.

*1:入社後にナレッジトランスファーや学習のサポートを行いますので、業務に必要な知識はキャッチアップいただけます。