あらゆる企業にとって、AIへの期待は、複雑なビジネスコンテンツを実用的なインサイトを変換する能力にあります。xAIのGrok 4のリリースにより、これらの能力がどれほど進化したかを確認する新たな機会が得られました。最新のBox AI Enterprise Evalでは、この新しいモデルが要求の厳しい現実世界のシナリオをどのように処理するかを検証しました。この分析では、パフォーマンススコアだけでなく、このモデルが企業環境で実際にどのように機能するかを明らかにする定性的なインサイトにも焦点を当てました。
Grok 4で高度なビジネスロジックに取り組む
全体的なベンチマークはベースラインを提供しますが、推論モデルの進化を測る上で最も重要なのは、企業コンテンツを解釈し、多段階の推論を実行する能力です。テストの結果、Grok 4が分析的推論において大幅な進歩を示し、単純な情報検索以上のものを必要とするタスクを処理する重要な能力がいくつか明らかになりました。
正確な多段階計算
- 企業の財務データを含むドキュメントを分析する際に、モデルに、売上高が1億ドル以上の企業の中で粗利益率が最も高い企業を見つけるように要求しました。Grok 4は、企業をフィルタリングし、「Tech Innovations Advanced」が粗利益率が最も高い(0.8)企業であると特定し、多段階のタスクを正しく実行しました。
- 2人の数学者に関する質問では、Grok 4は、張 益唐氏(Yitang Zhang)が生まれたとき、アンドレイ・コルモゴロフ氏(Andrey Kolmogorov)は51歳だったと正しく計算しました。これは、張氏の2月の誕生日が1955年のコルモゴロフ氏の4月の誕生日より前であったことに着目し、特定の誕生月を考慮した正確な計算を実行することで達成されました。
どちらの例も、Grok 4がシーケンシャルロジックと高度な数値精度の両方を必要とするタスクを実行する強力な能力を備えていることを示しています。この能力は、正しい答えに得るために一連のステップを実行する必要があることが多い財務分析やデータレポート作成の自動化に不可欠です。
高度な定性推論
- 4つの文章からなるテキストから文体のみに基づいて異なる著者の数を判断する課題に対して、Grok 4は著者が3人であることを正しく識別しました。Grok 4は、視点、語調、文構造、語彙といった文体要素を比較し、文章を3つの異なるスタイルに分類するという詳細な段階的分析を提供しました。
これは、明示的な情報のみに頼るのではなく、定性的なパターンと抽象的な概念に基づいて推論を行うGrok 4の高度な能力を示しており、市場センチメント分析や顧客の微妙なフィードバックの理解などの抽象的なタスクにおいて有用です。
微妙な法的条項
- 共同ブランディングおよび代理店契約書において、Grok 4は「無制限責任」条項と「収益/利益分配」条項の両方が存在すると正しく判定しました。
- 販売代理店契約書の分析において、Grok 4は「更新期間」を正しく識別し、「支配権の変更」条項が存在しないことを正しく判定しました。
これは、密度が高く業界固有の言語を解析し、契約書内の重要な法的条項をより正確に特定する能力が向上したことを示唆しており、契約書レビューサイクルを劇的に加速し、リスク評価の精度を向上させ、デューデリジェンスプロセスを効率化できるメリットにつながります。
Grok 4を企業全体で活用する
これらの調査結果は、適切なタスクに適切なAIモデルを選択することの重要性を浮き彫りにしています。
法務部門と財務部門にとって、計算処理能力と複雑な条項を解釈する能力が向上しているGrok 4は、詳細な契約書レビューと財務分析のための強力なツールになります。
研究者にとって、このモデルの高度な分析能力は、密度の高い技術論文から情報を分解して統合するのに役立ちます。
一般的なドキュメントのQ&Aでは、Grok 4は非常に優れた性能を発揮する一方で、一部の領域では前モデルよりも精度が低い場合があることに注意する必要があります。そのため、モデルの選択はワークフローの重要な部分となります。
Box AI StudioとBox AI APIでGrok 4を使い始めるには、ailabs@box.comにリクエストするかBox Japanの営業担当者にお問い合わせください。
※このブログは Box, Inc 公式ブログ(https://blog.box.com/)2025年7月11日付投稿の翻訳です。
原文リンク: https://blog.box.com/first-look-grok-4-and-box-ai
これまでのBox AI Enterprise Eval
- First look: Claude 4とBox AI
- Update: Gemini 2.5 Pro (I/O Edition)とBox AI
- BoxとIBMが協業し、LlamaモデルをBox AIに導入
- Gemini 2.5 FlashでBox AIのドキュメントQ&Aと抽出を強化
- Box AI Enterprise Eval: OpenAI o3とo4-miniによるBox AIでのデータ抽出
- First look: Grok 3がBox AI StudioとBox AIに近日登場
- First look: GPT-4.1がBox AI Studioで利用可能に
- Box AIによる企業コンテンツのためのMeta Llama 4モデルの評価
- First look: Gemini 2.5 ProとBox AI
- Box、NVIDIA Llama Nemotron推論モデルをBox AI Studioでサポートすることを発表
- Box AI Enterprise EvalでGemma 3を検証
- First look: GPT-4.5 と Box AI
- First look: Claude 3.7 Sonnet と Box AI
- トピックス:
- Box製品情報