DLPのコンテンツ分析には改善の余地あり

: 2025年01月20日

DLPのコンテンツ分析には改善の余地あり

DLPは単純な方法で、権限のない受信者に送信された可能性のある重要な情報を検索し、文書の内容を比較して操作行為を記録して、対策を講じています。

従来のDLPでは、特定のキーワード（例えば機密プロジェクトのコード）を検索したり、9桁の文字列（ID番号のように見えるかもしれない）を検索するなど、静的なルールとRegEx正規表現に依存していました。

しかしこれだけでは不十分で、見落とされる情報もあります。送信者がプロジェクトコードの使用を避けるようにしている場合などは、従来のDLPでは該当のメールを検出できません。セキュリティ担当者はあらゆる組み合わせに対応するルールを考えなければならず、非効率的で時間がかかります。表現形式が誤って解釈される可能性もあり、機密情報を含まない文書にラベリングされることもあります。

DLPのルールで携帯電話番号を9桁の文字列としてラベリングするように設定されている場合、たとえそれが電話番号でないと一目でわかるものであっても、この文書に含まれる連続する9桁の数字を含むメールはすべてラベリングされます。従来の自動データ分類の技術は処理が非常に複雑で、変化が速いデータを扱う場合はいくつかの欠点があります。

大幅な手作業が必要
手作業によるルールの定義や既知の特徴の抽出に頼っており、正規表現を使ったり分類基準を手作業で選択するなど、これには膨大な専門知識や時間が必要になります。データの種類や内容（流行語など）が変わると、ルールの更新やメンテナンスが必要になります。
データの多様性への適応が不十分
高次元あるいは非構造化データ（データベースにないテキストや画像など）ではうまく機能しません。曖昧さに対応するのは難しく、多義語や文脈依存的な状況、例えば自然言語処理においては固定的なルールの適用は困難です。
新しいカテゴリーや変化への適応能力に限界がある
従来の方法では、見たことのないデータタイプや動的に変化するデータタイプに適応することができません。データ分布が変化した場合（例えば新しいカテゴリが追加された場合）、ルールを手動で調整する必要があり、システムは動的なルール調整はできません。
大規模データでは非効率的
RegExは比較量が多いと、特に分類カテゴリ数が多い場合や高次元データの場合は大規模なデータを効率的に処理することはできません。
複雑な分類への対処が困難
例えば複雑なデータタイプの場合、ドキュメント全体が「会計」という単語を含んでいるのではなく、ドキュメント全体が会計のための数値計算に関するものというケースです。これに加えて、スペルミスや他のノイズを含む内容は認識できません。

データが主にローカルに保存されていた頃、RegExルールに基づくDLPはうまく機能するように思われていました。しかしクラウドサービスや生成AIの台頭により、非構造化データの膨大な量と増加速度が、従来のDLPで対処するのをますます難しくしています。DLPの固定ルールの性質上、誤検知が大量に発生しやすく、セキュリティ担当者は焦点が定まらず真のリスクに焦点を当てるのが難しくなってしまいます。今日クラウド環境で情報漏洩を防ぐことは、干し草の山から針を探すようなもので、多くの運用コストと計算コストがかかり効率も良くありません。

次世代DLPはどのように情報漏洩を防ぐのか？

AIの研究で最も興味深い分野のひとつは、プログラミング言語（Java、C、Rustなど）でプログラムを構築するのではなく、自然言語（人間が使用する言語）を使用して作業を行う（機械に指示する）方法です。自然言語処理（NLP）は、機械が人間の言語を入力として受け取り、それを標準化した構造に変換して情報を出力することにフォーカスしています。自然言語理解（NLU）は、言語を解釈して、表現された文脈・イメージ・感情を認識することです。例えば、NLPは「Please crack the windows, the car is getting hot. 」という文章を文字通り「窓を割る」のように解釈しますが、NLUはその要求が実際には「窓を開ける」ことだと推測します。

幸いなことに、DLPには自然言語理解（NLU）を統合したDLPという新しい選択があります。従来のDLPとは異なり、NLUはAIを使用して書面（テキスト）と口頭（音声）の両方で人間の言語を分析および理解します。NLUモデルは、新しいデータから学習して、管理者が常に新しいルールを入力することなく、ファイル内のテキスト内容を即時で処理できます。NLPのデータ分類は、従来のルールよりもはるかに自動化されています。NLUベースのDLPシステムは信頼性が高く、精度も高いので誤検知が少なくなります。これはコンプライアンスの強化やデータ保護にとっても良いことですが、最も重要なのはノイズが減少してセキュリティ担当者が誤検知ではなく実際の脅威に集中できるようになることです。

性能が低いと、内部脅威についてはあまり引っかからなかったり、例外的な状況での誤報が発生しやすくなります。UBAはデバイスやアプリケーションの異常な動作を含むユーザー行動分析に基づいており、より包括的なリスク監視とより正確な内部脅威の捕捉を提供します。

コラム

DLPのコンテンツ分析には改善の余地あり

次世代DLPはどのように情報漏洩を防ぐのか？