OpenAIがo3とo4-mini推論モデルを今週リリースしました。これら2つのモデルが、企業にとって極めて重要なタスクである正確なデータ抽出をどのように処理できるか検証しました。
Box AI Enterprise Evalフレームワークを使用して、OpenAI o3とo4-miniをCUADデータセットの難易度の高いサブセットでテストしました。このサブセットは、正確な抽出のために微妙なニュアンスを理解する必要がある複雑な企業ドキュメントの典型です。主要なパフォーマンス指標には、正確性の割合と複合F1スコアが含まれ、精度と再現率のバランスを取るために使用されます。
抽出パフォーマンスに関するインサイト
Boxによるテストでは、両方のモデルに強力な抽出能力があることが明らかになり、Box AIによって評価された他の主要モデルと並んで競争力を持つと位置付けられました。
- o4-mini: CUADの難解なサブセットにおいて優れたパフォーマンスを示し、F1スコア 0.85、84%の正答率を達成しました。これは、複雑な法務文書から正しい情報を特定して抽出する精度と信頼性の高さを示しています。
- o3: 同じく堅牢なパフォーマンスを示し、同じデータセットでF1スコア 0.81、80%の正答率を達成しました。
どちらのモデルも要求された大量の情報を抽出することに成功しましたが、o4-miniは全体的な精度とF1スコアで顕著な優位性を示しました。このレベルのパフォーマンスにより、どちらのモデルも企業コンテンツからの情報取得を自動化するための貴重なツールとなります。
パフォーマンスの優位性を理解する: o4-mini vs. o3
どちらのモデルも、企業での使用に適した強力な結果を提供しますが、パフォーマンスの微妙な違いをより詳細な検証しました。
- o4-mini: 重要なタスクで最高の精度: 84%の正答率と高い総合有効性スコア(0.85 F1)を誇るo4-miniは、その信頼性において際立っています。これは、エラーが少なく(精度が高い)、関連情報のほとんどをキャプチャできる(再現率が高い)ことを示しています。この優位性は、正確性が最優先されるユースケースにおいて特に価値があります。法廷契約書の最終レビュー、機密データを含むコンプライアンスチェック、小さなミスでも重大な結果をもたらす可能性のある財務報告などです。その性能は、これらの要求の厳しい抽出タスクにおいて、Boxが評価したモデルの中でもトップクラスです。
- o3: 堅牢性と性能: 難解なCUADサブセットで80%の精度と0.81のF1スコアを達成したことは、素晴らしい結果です。o3は、複雑な抽出要求を確実に処理できます。o4-miniの方がわずかに精度が高いですが、o3はさまざまな企業タスクに十分すぎるほどの強力なベースラインパフォーマンスを提供します。o3は、大量処理や、その堅牢な機能が要件を満たすシナリオで、o4-miniとは異なるパフォーマンスと効率性のバランスを提供できる可能性があります。
o3とo4-miniを組織全体で活用する
これらのOpenAIモデルの洗練された抽出機能により、さまざまな部署で強力なユースケースを実現できます。
- 法務とコンプライアンス: o4-miniは、重要な契約書の分析に活用できます。特定の条項、日付、および義務を最大限の精度で特定し、リスク評価とコンプライアンス検証を実現します。o3は、契約書の初期レビューや大量の法務文書の効率的な分類に使用できます。
- 財務: o4-miniを活用して、金融契約書や規制当局への提出書類から正確な数値、条件、取引先の詳細を抽出できます。o3は、高い精度が求められる請求書や経費報告書の一括処理に使用できます。
- 営業業務: 販売契約書から主要な用語、取引額、更新日を抽出して、CRMフィールドに自動的に入力できます。o4-miniは重要なフィールドに対して最高のデータ整合性を確保し、o3はより広範なデータキャプチャのニーズに対応できます。
- 調達: サプライヤー契約書を分析して、納期、支払い条件、サービスレベル契約(SLA)を抽出できます。重要なSLAコミットメントの検証にはo4-mini、一般的なサプライヤー契約書のデータ管理にはo3を選択します。
- 人事: 雇用契約書やポリシー文書を迅速に処理して、開始日、報酬の詳細、競業避止条項を抽出できます。o4-miniは機密性の高い従業員データの精度を確保し、o3は大量の人事レコードを効率的に管理するのに役立ちます。
いますぐ始めましょう
Box AIで利用可能なOpenAI o3とo4-miniモデルにより、複雑なデータ抽出の課題に取り組むための強力な新しい選択肢が提供されました。重要なワークフローにo4-miniの最高の精度が必要な場合でも、より広範なタスクにo3の堅牢で優れたパフォーマンスが必要な場合でも、Box AIは業務に適したツールを柔軟に選択できます。
企業コンテンツに、正確で効率的なAIの可能性を解き放ちましょう。Box AI StudioおよびBox AI APIでOpenAI o3とo4-miniを利用するには、ailabs@box.comまたはBox Japan担当営業にお問い合わせください。
※このブログは Box, Inc 公式ブログ(https://blog.box.com/)2025年4月22日付投稿の翻訳です。
著者:Vishal Naik, Head of Product Marketing, Platform at Box
原文リンク:https://blog.box.com/box-ai-enterprise-eval-openais-o3-and-o4-mini-data-extraction-box-ai
<関連コンテンツ>
- First look: Grok 3がBox AI StudioとBox AIに近日登場
- First look: GPT-4.1がBox AI Studioで利用可能に
- Box AIによる企業コンテンツのためのMeta Llama 4モデルの評価
- First look: Gemini 2.5 ProとBox AI
- Box、NVIDIA Llama Nemotron推論モデルをBox AI Studioでサポートすることを発表
- Box AI Enterprise EvalでGemma 3を検証
- First look: GPT-4.5 と Box AI
- First look: Claude 3.7 Sonnet と Box AI
- トピックス:
- Box製品情報