Googleは先週、高速処理と強化された推論機能を実現するモデルGemini 2.5 Flashをリリースしました。本日、Boxは重要な企業タスクにおけるパフォーマンスを評価し、企業コンテンツからインサイトを引き出すための重要な機能であるドキュメント質問応答機能にフォーカスしました。
Box AI Enterprise Evalプロセスで、Gemini 2.5 Flashは単一ドキュメントと複数ドキュメントの両方でクエリを正確に理解して応答する能力が大幅な進歩を遂げていることが明らかになりました。また、複雑なデータ抽出においても優れたパフォーマンスを発揮しました。Gemini 2.5 Flashは強力かつ効率的な選択肢で、特にQ&Aの情報の理解と統合において、前身である2.0 Flashに比べて大幅な改善が見られました。
Gemini 2.5 Flash 要求の厳しい企業タスクに対する有効性
緻密な企業ドキュメントに基づく質問に正確に回答するには、キーワードを見つけるだけでなく、高度な理解力、統合力、そして推論力が必要です。まったく新しいBox AI Enterprise Evalの一環として、Gemini 2.5 Flashを単一ドキュメントQ&A、複数ドキュメントQ&A、CUADデータセットの最も複雑なコンポーネントからのデータ抽出、そして完全なデータ抽出データセットでテストしました。
結果は、以下の通りです。
- ドキュメントQ&Aの大幅な向上: Gemini 2.5 Flashの最も顕著な改善点は、質問応答タスクです。Gemini 2.0 Flashと比較して、正確な回答を提示する理解力と能力が向上しています。
- 単一ドキュメントのQ&A評価では、Gemini 2.5 Flashの回答再現率スコアは80.06を達成し、Gemini 2.0 Flash(76.43)より3.6ポイントも大幅に向上しました。
- 複数のソースから情報を統合する必要がある複数ドキュメントQ&Aシナリオでは、Gemini 2.5 Flashは78.79を記録し、Gemini 2.0 Flash(76.3)と比較して2.5ポイント向上しました。
- これらの向上は、ユーザークエリを理解し、Box内の複雑なコンテンツリポジトリから関連性の高い情報を正確に取得するGemini 2.5 Flashの能力が向上したことを示しています。
- 強力な抽出性能: Q&Aで顕著な改善が見られましたが、Gemini 2.5 Flashは複雑なデータ抽出タスクにおいても高い品質を維持しています。多くの場合、これらのタスクは同様の推論能力に依存します。以前のモデル評価で使用した難解な抽出タスクに焦点を当てたCUADサブセットでは、Gemini 2.5 Flashは82%の正解率を達成し、Gemini 2.0 Flash(81%)をわずかに上回り、基礎となる堅牢な推論能力を示しました。
- パフォーマンスを支える高度な推論: 複数ステップの推論(日付の計算や特定の法的条項の解釈など)を必要とする複雑な抽出項目を処理できるGemini 2.5 Flashの能力は、同じドキュメントに基づいて微妙な質問を理解して回答する際のパフォーマンスの向上に貢献していると考えられます。
これらの結果は、Gemini 2.5 Flashが、複雑なデータ抽出に対して高い水準を維持しながら、特にQ&Aユースケースで大幅なアップグレードを提供し、Box AIで企業コンテンツと扱うための汎用性の高い資産になっていることを示しています。
Gemini 2.5 Flashがエンタープライズタスクに効果的な理由
Gemini 2.5 Flashの優れたパフォーマンス、特にドキュメントQ&Aにおける進化は、Box AIを使用する企業に具体的なメリットをもたらします。
- より正確な回答: Q&Aの再現率が目に見える形で向上したことで、ドキュメントをクエリする際により信頼性が高く包括的な回答を得られるようになり、手作業によるファクトチェックの必要性が軽減されます。
- より深いインサイト: 複数のドキュメントにまたがる情報を統合する機能が強化されたことで、これまで大量のコンテンツの中に埋もれていた重要なテーマ、トレンド、関係性をすばやく把握できます。
- スピードと効率性: Flashモデルであるため、大規模なモデルと比較してレイテンシが低く、改善されたQ&A機能を提供できるので、調査や意思決定を加速できます。
- 費用対効果: スピードと効率性が最適化されているため、クエリあたりのコストを低く抑えられ、高度なQ&A機能を企業全体に展開できます。
- Q&Aとデータ抽出における信頼性の高い品質: 質問に正確に回答し、複雑なメタデータを効果的に抽出する実証済みの能力により、コンプライアンス、調査、リスク管理、データガバナンスのユースケースにおける信頼性を確保できます。
ニーズに適したGeminiモデルを選ぶ
Geminiファミリーは、Box AI内で柔軟に選択できます。
- Gemini 2.5 Pro: 最も複雑なタスクで最大限の推論能力を発揮する最良の選択肢です。業界トップクラスの抽出スコア(難解なCUADで82%の正解率)と強力なQ&Aパフォーマンス(単一ドキュメント再現率 80.32)によって証明されています。
- Gemini 2.5 Flash: 優れたバランスを提供します。難解な抽出(正解率 80%) ではGemini 2.5 Pro に僅差で及ばないものの、単一ドキュメント(再現率 80.06) と複数ドキュメント(再現率 78.79)のQ&AではGemini 2.0 Flashよりも明らかに改善されています。その調整可能な「ハイブリッド推論」によって、柔軟性が向上しています。スピードと品質が求められる厳しいQ&Aや抽出タスクに最適です。
- Gemini 2.0 Flash: スピードと効率性に定評にある主力製品です。より単純なタスクには効果的ですが、最新の評価では、Q&A再現率(単一ドキュメント 76.43、複数ドキュメント 76.3) と難解な抽出(正解率 77%)で、Gemini 2.5 Flash と比較して低いスコアとなりました。
Q&Aの複雑さ、必要な精度、スピード、予算など、具体的なニーズを評価して、最適なGeminiモデルを選択しましょう。
いますぐ始めましょう
Gemini 2.5 Flashは、ドキュメントQ&Aの大幅な改善に加えて、強力な抽出機能、スピード、効率性を提供し、企業にとって魅力的な選択肢となっています。特にGemini 2.0 Flashと比較して、単一ドキュメントのQ&A再現率で約3.5ポイント、複数ドキュメントのQ&A再現率で約2.5ポイント向上しており、要求の厳しい現実世界のコンテンツの課題に対応できる対応力を備えています。企業コンテンツで高速かつ高品質なAIの可能性を解き放ちましょう。Gemini 2.5 Flashは、Box AI StudioおよびBox AI APIで本日よりご利用いただけます。
※このブログは Box, Inc 公式ブログ(https://blog.box.com/)2025年4月23日付投稿の翻訳です。
著者:Vishal Naik, Head of Product Marketing, Platform at Box
原文リンク:https://blog.box.com/gemini-25-flash-delivers-enhanced-document-qa-and-extraction-box-ai
<関連コンテンツ>
- Box AI Enterprise Eval: OpenAI o3とo4-miniによるBox AIでのデータ抽出
- First look: Grok 3がBox AI StudioとBox AIに近日登場
- First look: GPT-4.1がBox AI Studioで利用可能に
- Box AIによる企業コンテンツのためのMeta Llama 4モデルの評価
- First look: Gemini 2.5 ProとBox AI
- Box、NVIDIA Llama Nemotron推論モデルをBox AI Studioでサポートすることを発表
- Box AI Enterprise EvalでGemma 3を検証
- First look: GPT-4.5 と Box AI
- First look: Claude 3.7 Sonnet と Box AI
- トピックス:
- Box製品情報