Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

マイクロソフト、マルチモーダルタスク向け Phi-4 AI モデルを発表

Generatived

25/2/27 4:30

Microsoft は、小型言語モデルの Phi ファミリーに新たに追加された Phi-4-multimodal と Phi-4-mini を導入し、AI の提供を拡大しました。Phi-4-multimodal モデルは、音声、視覚、テキスト入力を同時に処理するように調整されており、コンテキスト認識アプリケーションの作成を可能にします。一方、Phi-4-mini はテキストベースのタスクに最適化されており、よりコンパクトな形式で高い精度とスケーラビリティを誇ります。現在、両方のモデルは、 Azure AI Foundry、HuggingFace、および NVIDIA API Catalog を通じて開発者がアクセス可能であり、後者は Phi-4-multimodal の実験用プラットフォームを提供します。

Phi-4 マルチモーダルモデルは、音声、視覚、テキスト処理を 1 つの統合アーキテクチャに統合した、AI の大きな進歩を表しています。この 56 億のパラメータモデルは、クロスモーダル学習技術を利用して、さまざまな入力タイプでの自然なインタラクションとコンテキスト認識応答を促進します。効率性を重視して設計されており、低遅延の推論を実現しながら計算負荷を最小限に抑え、デバイス上での展開に適したものにします。

Microsoft の Phi-4-multimodal は、視覚入力と音声入力の両方の処理において優れたパフォーマンスを発揮し、音声認識と翻訳のベンチマークで他の最先端モデルを凌駕しています。Huggingface OpenASR リーダーボードでトップの座を獲得し、音声要約において有望な成果を上げています。サイズは小さいものの、OCR や視覚的推論などのマルチモーダルタスクでも競争力のあるパフォーマンスを維持しています。

38 億のパラメータを持つモデルである Phi-4-mini は、テキストベースのタスクに優れ、長いシーケンスをサポートし、高い精度を実現します。関数呼び出し機能により、外部 API やデータソースとやり取りできるため、実用性が高まります。Phi-4-mini と Phi-4-multimodal はどちらも、コンピューティングリソースが限られている環境での使用を想定して設計されており、コスト効率が高く、遅延に敏感なソリューションを提供します。また、簡単にカスタマイズできるため、さまざまな業界のさまざまな分析アプリケーションに適しています。

出典：Latest news - Source, Microsoft