LegalOn Technologies Engineering Blog

LegalOn Technologies 開発チームによるブログです。

ネットワーク分析を用いた文書参照関係の分析

はじめに

株式会社LegalOn Technologies でデータアナリストをしている高木 要です。LegalOn Technologiesではデータ分析業務に積極的に取り組んでおり、我々データアナリストチームは各部門のステークホルダーとともに製品やビジネスの価値をデータから評価できるようにデータ分析を行なっています。分析内容は多岐に渡り、製品利用状況や営業データなどを用いて、プロダクト開発やビジネスにおける意思決定精度の向上に努めています。

今回は「ネットワーク分析を用いたお客様の法律文書ナレッジマネジメント状況の可視化」についてご紹介いたします。

背景

今回の分析は、営業チームからの「お客様のナレッジマネジメント状況を可視化し、把握したい」という依頼を受けて行なったものです。ナレッジマネジメントとは一般的には「知識を共有して活用することで、新たな知識を創造しながら経営を実践すること」とされています。弊社が事業領域とする契約書審査業務において、これを具体的に考えるならば「『誰が、どのような契約書を、どのようにレビューしたか』が法務担当部署内で共有・活用されている状況」ということになろうかと思います。

ナレッジマネジメント状況を可視化する意義はいくつかあります。

まず1つ目に、お客様の審査業務における課題が特定できます。例えば担当者同士で知識の共有や活用がされていない場合は、それ自体が法務担当部署における業務効率化・高度化に対する課題になり得ます。

2つ目に、お客様の審査業務遂行上重要と思われるユーザーを特定することができます。例えばある特定の担当者が管理している契約書ばかり参照・共有されている場合、その人物は重要な知見を持っているものと推察されます。

3つ目に、お客様の解約リスクを検知することができます。弊社の製品である「LegalForce」にはナレッジマネジメントに関する機能がいくつかありますが、お客様の部署内においてナレッジマネジメントが十分になされていない場合、これらの機能が十分に活用されていない可能性が高いです。一般的に、機能の活用が十分ではないお客様の製品解約リスクは高いため、ナレッジマネジメント機能の活用水準が低いお客様の解約リスクは高いことが推測されます。

上記のように、ナレッジマネジメント状況の可視化からは様々な示唆を得られます。そこで今回は、ネットワーク分析による可視化を実施いたしました。

ネットワーク分析とは

ネットワーク分析とは、データを「エッジ」と「ノード」からなるネットワークで表現し、そのネットワークの様々な特徴に注目し分析する手法です。一例をお見せします。

上図は、あるお客様の文書参照関係を表した図です。ここで文書参照関係とは”「LegalForce」上にてユーザーAがアップロードした契約書をユーザーBが閲覧した場合に生じる関係”を指します。BさんがAさんの文書を閲覧した場合、B → Aという矢印が生じます。非常に単純な定義であり、かつかなり素朴な可視化ですが、この図からでも様々なことが推察できます。

例えば右上のノード(点)には複数の矢印が集中している一方で、他のノードにはあまり矢印が集中していません。この場合、この右上のノード(担当者)は重要な知見を持っている可能性が高いです(一方で契約書アップロード専任者の可能性もあります)。

ただ、他のノード間ではあまり矢印が存在しないことから、ナレッジマネジメントが高度に行われているわけではなさそうです。逆に業務の属人化・個人商店化が進んでいる懸念もあります。

従って製品の活用水準も十分に高いとはいえず、解約懸念先にもなり得ます(ここから先はCSの出番です)。

このように、対象を頂点(ノード)と辺(エッジ)からなるネットワークで表現し、そのネットワークの特徴に基づいて行われる分析を「ネットワーク分析」と言います。

分析方針

今回の分析依頼は「お客様のナレッジマネジメント状況を可視化し、把握したい」でしたので、お客様ごとのネットワーク図を可視化することが第一に必要です。それに加えて、そのお客様のネットワークを定量的に評価することも重要になります。

以下で新たなネットワーク図を2例紹介します。

上記は、同じ業界に属する近しい企業規模を持った2社のお客様の文書参照関係を可視化したものです。

単純に2つのネットワークを比較するだけでも、次のような違いが見て取れます。

  • 左はノード間を結ぶエッジが少ない「疎」なネットワークであるのに対し、右はノード間のエッジが多い「密」なネットワークである。
  • 左は「自己ループ(出入力先が同じエッジ)」しかないノードが複数存在する。
  • 単純に左の方がノード数が少ない。

このように異なるネットワークには異なる特徴があり、その特徴次第で得られる示唆が変わります。従って、どのような特徴をどのように定量的に評価するか、がネットワークの定量評価においては重要となります。

本分析では、下記のネットワークの特徴(以下、特徴量)を用いてネットワークを評価します。

特徴量

  • ノード数(number_of_nodes)
    • ネットワークに含まれるノード数(ユーザー数)
    • 本分析では集計期間中に一度でもデータに現れたユーザーは漏れなくカウント
      • 集計期間内にアカウント削除済みでもカウント
    • 本分析ではノード数(ユーザー数)が3以上のお客様が分析対象
  • 平均次数(mean_degree)
    • 次数はノードに対するエッジの数
    • 平均次数は、あるネットワークにおける1ノードに対する平均的なエッジ数(矢印数)
  • 最大次数(max_degree)
    • ネットワークにおける最大の次数
  • 同類選択性(degree_assortativity_coefficient)
    • 次数の似たノード数がお互いにリンクしているかどうかを示す指数
    • 次数の高いノード同士、次数の低いノード同士がリンクしているほど高くなる
  • リンク密度(density_of_link)
    • 存在しうる全てのエッジ数(全てのノードを互いにリンクさせた時のエッジ数)に対して、実際に存在するエッジ数の比率
  • エッジ比率(rate_of_edges)
    • ノード数に対するエッジ数の比率
  • 自己ループ比率(rate_of_selfloop)
    • ノード数に対する自己ループエッジ数の比率
  • 自己ループのみノード比率(rate_of_selfloop_only)
    • ノード数における自己ループのみノードの比率

また、本分析では下記のとおり分析を実施しています。

  1. 各ネットワークについて上記の特徴量を算出
  2. ネットワークの特徴量に基づいたクラスタリングを実施
    1. 本分析ではk-meansを使用
  3. クラスターごとの特徴量の分布や企業規模・産業構成を分析
  4. 別途、ネットワークの特徴量が解約に与える影響を分析

分析結果

クラスターごとの概観

下図は、クラスター分析の結果を示した箱ひげ図です(クラスター数=4)。

横軸は左から、「ノード数」「平均次数」「最大次数」「同類選択性」「自己ループのみ比率」「リンク密度」「エッジ比率」「自己ループ比率」になります。

クラスターの概観は下記のとおりです。

  • クラスター0,3について

    • すべての指標が低位なクラスターです。ネットワーク規模は相対的に小さいですが自己ループ系の指標や同類選択性の指標も低位であり、一定程度のネットワーク形成がなされていることが示唆されます。
  • クラスター1について

    • ノード数や平均次数、最大次数、エッジ比率が高く、同類選択制や自己ループのみノード比率などが低い傾向があります。従ってネットワークの規模が大きく、その密度も大きい傾向にあります。
  • クラスター2について

    • 同類選択制や自己ループのみノード比率が高く、その他は低い傾向にあります。従って疎なネットワークであり、自己ループが多い傾向が見られます。

上記から、弊社のお客様全体(ただし今回の分析対象に限る)におけるおおよそのネットワーク形成状況が把握できました。下記では、各クラスターの企業規模・産業構成について概観します。

クラスターの企業規模・産業構成

企業規模比較

下記の図は、各クラスターに属する企業の従業員規模の比率について可視化したグラフです。lawは法律事務所を指しています。このグラフから、

  • クラスター0はやや大規模〜中規模の企業が多い
  • クラスター1は圧倒的に大企業が多い
  • クラスター2は相対的にやや中規模、ないし小規模な企業が多い
  • クラスター3はクラスター2と似ているが、相対的にやや中規模〜大規模な企業が多い。

ことが分かります。概観で述べたようにクラスター1が密なネットワークであり、クラスター2が疎なネットワークであったことを踏まえると、基本的に、従業員規模の大きい会社ほどナレッジマネジメントが進んでいる(あるいはナレッジマネジメントが業務上課題になりやすい)傾向があると考えて良さそうです。

産業構成比較

下記の図は、各クラスターに属する企業の産業構成の比率について可視化したグラフです。このグラフから、

  • クラスター1は製造業やインフラ産業、建設業が相対的に多い一方で、他のクラスターは情報通信業や学術研究、サービス業が若干相対的に多い。

ことが分かります。

追加分析

今回は、ネットワークと解約率との関係も分析しております。詳細は割愛しますが、

  • エッジノード比率が高いほど解約率が低い
    • → 文書参照が密に行われているほど解約率が低い
  • ループエッジ比率が高いほど解約率が高い
    • → 業務の属人化・個人商店化が進んでいる場合は解約率が高い

といった傾向があることがわかっています。ただし、これらの分析結果はあくまで相関関係であり、因果関係があるかどうかが不明な点に注意が必要です。

終わりに

今回はネットワーク分析を使ったお客様のナレッジマネジメント状況の可視化に関する分析についてご紹介いたしました。ネットワーク分析を行えば、お客様のナレッジマネジメント状況が一目で把握できることがお伝えできたかと思います。また、ネットワークを定量的に評価し、比較やクラスタリングを行うことで、そのネットワークが他のネットワーク群と比較してどのような特徴を持っているのかについても分析可能です。さらに、ネットワークの特徴量と他の補足情報(お客様の企業規模や事業領域)をつなげることでさらに示唆を得ることもできます。

弊社では、担当者によるお客様へのナレッジマネジメント情報の提供にこの図を使うことがあります。ナレッジマネジメント状況の進捗と課題を把握していただくためです。また、個人的には、このネットワーク分析をさらに詳細に進めることで、お客様企業内の各担当者様ごとにどれだけナレッジが溜まっているのか、またそのナレッジがどの程度他者に共有されているのかも可視化可能と考えています。

このような、ネットワーク分析を使ったビジネス分析は、機械学習や因果推論を使った分析などと比較するとあまりホットトピックではない印象がありますが、その有用性はそれらの分析手法と同等か場合によってはそれ以上ではないかと思います。

データアナリストとして大事なのは、ビジネス課題をどのように分析課題に落とし込むかであり、幅広いビジネス課題に対応するためには幅広い分析手法を知っている必要があります。

本記事が皆様の分析手法の拡充のお役に少しでも立てれば幸いです。

仲間募集!

株式会社LegalOn Technologies ではエンジニアを募集しています。気軽にご応募ください。