最近、AIが話題になっているのは周知の事実です。何ページにも及ぶ顧客との契約書、詳細な従業員ハンドブック、セールス・プレゼンテーション、製品発表のビデオ・・・そのようなコンテンツから、価値ある情報やインサイトを、もっと引き出せる可能性があります。しかし、このようなインテリジェンスを活用・抽出する前に一歩引いて、コンテンツ、つまり「非構造化データ」を戦略的視点から俯瞰する必要があります。本ブログでは、Boxが協賛したIDCのホワイトペーパー「未開拓の価値:非構造化データについてあらゆる経営幹部が理解すべきこと」の独自調査に基づいた洞察をご紹介します。コンテンツが持つ「本当の価値」への扉を開ける鍵を作るのは今です。
非構造化データとは何か?
非構造化データには、日常的に扱うすべての電子ファイルが含まれ、文書、PDF、ビデオ、画像、オーディオクリップなど、さまざまな形式があります。この種の情報は、別名コンテンツと呼ばれ、データベースに読み込んだり、行や列に並べたりすることができないため(意味がない)、整理や分析が難しくなります。
一方、構造化データは「表形式」であり、列や行、CSVやJSONなどのフラットファイルを介して簡単にデータベースに入れることができます。取引情報、センサーデータ、顧客リスト、財務情報、従業員記録など、ラベル付け、タグ付け、フィルタリング、並べ替えが可能なものを思い浮かべてみてください。それが構造化データです。
ご存じないかもしれませんが、企業が持つ大半のデータは前者のカテゴリーに分類されます。データの90%は構造化されていないのです。IDCの調査によれば、世界中の組織は2023年だけで73,000エクサバイトを超える非構造化データを生成すると予測されています。エクサバイトという単位は、どのくらいの情報量なのでしょうか?とある記事によれば、23万年前にビデオ会議を開始して今日まで続けたとすると、その動画ファイルは1エクサバイトとなるそうです。途方もない情報量であることが実感できるでしょう。
非構造化データは、役員室内で練られる戦略から日々の業務に至るまで、企業のあらゆるレベルで極めて重要な情報源と言えます。非構造化データにAIを導入すれば、重要で意味のあるインサイトに満ちた「宝の山」を発見することができるでしょう。
「ビッグデータ」の出現により、多くの組織は、構造化データを作成し管理するための明確な戦略を
打ち出しましたが、非構造化データについては、そのような動きはありませんでした。なぜなのでしょうか?
コンテンツ戦略なくしてAI戦略はあり得ない
「コンテンツ管理の問題」は今に始まったことではありませんが、あまり注目されていません。生成AIが登場した今、すべての非構造化データを管理下に置かなければならないというプレッシャーは、急速に高まっています。IDCの調査によると、コンテンツの分析について、「ほとんど自動化された手段を持っていて、人が対応するのは例外的な場合のみ」と回答した企業は全体の26%に過ぎないという結果が出ています。
生成AIは、膨大な量の非構造化データを大規模に分析し合成する可能性を秘めており、情報の宝庫を利用するだけでなく、それを洗練し、形を整え、磨き上げることを可能にする初のソリューションです。契約書の危険な条項の特定であれ、プレスリリースのドラフト作成であれ、生成AIは業務の進め方とその速さを変えることができます。実際、IDCは調査を通じて、AIのユースケースのトップとして、新しいコンテンツの迅速な作成(33%)、アイデア創出の自動化(31%)、顧客との対話のためのより良いチャットボット(30%)、関連コンテンツの推奨(30%)を挙げています。
もちろん、生成AIを効果的に活用するためには課題もあります。IDCの調査によると、49%の企業が、大規模言語モデル(以下LLM)に独自のコンテンツを公開することを懸念しており、半数近く(47%)がLLMのトレーニングに使用されるコンテンツの知的財産権について不明確な点があると回答しています。
LLMが非構造化データに基づいて学習されていることを考えると、ITリーダーは、単一のプラットフォーム上でデータを管理し、保護するための戦略を持って初めて、AIの力を活用することができると言えます。このような理由から、インテリジェンスの力を活用することになれば、コンテンツの一元管理を実現している企業の方が、圧倒的に有利になると言えるでしょう。
非構造化データへの投資不足の落とし穴
IDCの調査によると、非構造化データの量と本来の価値(そして生成AIが持つ将来性)にもかかわらず、非構造化データへの投資を正当化できている組織は44%しかいません。*
また、IT予算の60%は構造化データ関連に投資されており、非構造化データ関連には40%という結果も出ています。構造化データと非構造化データの比率が1対9であるのに対して、このIT投資額の比率は不整合と言えるでしょう。*
セキュリティ上の脅威が指数関数的に増加している昨今、情報の90%を占める非構造化データの管理を軽視して投資を疎かにすることは、リスクでしかありません。情報漏洩が発生してしまった後の対処にかかる莫大な費用を想定すれば、非構造化データへの投資不足は、長期的には企業のコスト増の引き金となる、と言っても過言ではないでしょう。
コンテンツの散在が招くリスクと非効率
IDCの調査では、非構造化データを一元管理する方法がなく、コンテンツが各システムに分散してしまうことから、50%の組織でコンテンツのサイロ化と散在が進んでいる、という分析結果が出ています。平均的な従業員は 37 個のツールを使用しています。*
この「テクノロジーの肥大化」が生む「複雑さ」の中で、チームは必要な情報の検索を長時間かけて行い、さらに、プロジェクト計画書、操作手順書、スライド資料などのコンテンツの複製に時間を費やしています。さらに、そのコンテンツのうち22%は、人々が見つけられないか、その存在を知らないために再度複製されている、という結果も出ています。そして、一度作成されたコンテンツが再利用されることは、調査対象企業の41%が半分以下であると回答しています*。
サイロ化された状態で非構造化データを使用する組織の 96% は、コンテンツにどのような情報が含まれているかを知らない、という衝撃的な調査結果も出ています*
コンテンツの一元化が解決するための「鍵」だが、これを実現するには、使い慣れた「お気に入り」のアプリケーションを使いながら、その実際のアウトプットを一箇所に安全に保管できるようなプラットフォームを選ばなければなりません。コンテンツの一元化は、多くの組織を悩ませている「複雑さ」を大幅に簡素化します。非構造化データを一元管理している組織の98% が、自社のコンテンツにどのような情報が含まれているかを知っている、という調査結果も出ています*。これは刺激的な数字です。
しかし、生産性の低下は、1つの側面に過ぎません。非構造化データが分散化すると、ビジネスクリティカルなワークフローの中核をなすコンテンツを保護することがほぼ不可能になるためです。コンテンツがサイロ化され無秩序に存在すると、企業はセキュリティとコンプライアンスの大きなリスクにさらされやすくなります。IDCが調査した企業の半数以上(51%)が、過去12カ月間にデータ規制を遵守しなかったと報告しており*、財務リスク、評判リスク、法的リスクにさらされています。
コンテンツには機密情報が含まれており、その管理と保護を怠ることは、特に金融サービス、ライフサイエンス、公共部門など、規制の厳しい業界の企業にとっては、許容できないリスクです。そして、もし、あなたが「本当に機密で価値のあるデータは、すべて構造化されロックされている」とお考えなら、思い出してください。構造化されたデータは、非構造化フォーマットで使用するために頻繁にダウンロードされる、ということを。
ビジネスはいつでも「待ったなし」
非構造化データの一元化は、世界中のITリーダーにとって最優先事項であることは明らかです。IDCの調査はこれを裏付けており、回答者の半数以上が、統一され、管理され、安全で、アクセス可能な非構造化データプラットフォームを導入することは、コストやイノベーション(92%)、セキュリティ(80%)といった主要な指標にプラスの影響を与えると述べています。*
これらは、IDC が 2023 年にセキュリティ侵害にかかる費用が 450 万ドル近くになると見積もっていることを考えると、重要な点です。*
非構造化データの管理を怠ると、コンテンツの断片化、アプリケーションの無秩序な増加、生産性の低下、そして何よりもビジネスリスクの増大につながります。非構造化データ管理の優先度を高くし、安全性を確保する企業は優位に立ち、そうでない企業は取り残される。それが「待ったなし」の現実と言えるのではないでしょうか。
詳しくお知りになりたい方は、Boxが協賛したIDCのホワイトペーパーをご一読ください:
未開拓の価値:非構造化データについてあらゆる経営幹部が理解すべきこと
このブログ記事中のIDCのデータはすべて以下のホワイトペーパーから引用しています:
*出典IDCホワイトペーパー、Box Inc:未開拓の価値:非構造化データについてあらゆる経営幹部が理解すべきこと 、Doc.US51128223、2023年8月
※このブログはBox, Inc公式ブログ(https://blog.box.com/)2023年8月25日(日本時間8月26日)付投稿の翻訳です。
著者:RAVI MALICK, GLOBAL CIO
原文リンク:https://blog.box.com/90-your-data-unstructured-and-its-full-untapped-value
- トピックス:
- 文書管理