Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

Vision Tech、強化されたビデオ言語モデルを発表

Generatived

25/2/27 4:30

視覚言語モデル (VLM) は、言語モデルに視覚的理解を初めて導入した 2020 年の誕生以来、大きな進歩を遂げてきました。当初、VLM はテキストと単一の画像しか処理できませんでしたが、現在では複数の画像や動画のコンテンツを解釈する機能を備えています。これにより、視覚的な質問応答やコンテンツの要約などのタスクに新たな可能性が開かれました。特定のアプリケーションでのモデル精度の向上は、プロンプトのチューニングとモデルの重み調整によって実現できます。プロンプトエンジニアリングでは、実行時にテキスト入力を変更することで出力を洗練する簡単な方法が提供されます。

単一画像の理解の領域では、VLM は画像内のコンテンツを識別および説明する能力を発揮します。画像内のオブジェクト検出やテキスト翻訳などのタスクを実行でき、画像の分類やキャプション作成が必要なシナリオで特に効果的です。これらのモデルは、個々のフレームを分析してライブストリームを監視することもできますが、連続した動きのコンテキストなしで各フレームに表示される情報に限定されます。

より複雑なシナリオでは、マルチイメージ VLM は複数の画像を比較して学習できるため、視覚コンテンツをより深く理解できます。これは特に小売業で役立ちます。VLM は、在庫がいっぱいの棚と在庫がなくなった棚の画像を比較することで在庫レベルを推定できます。ただし、ビデオコンテンツを包括的に理解するには、ビデオ固有のトレーニングとより長いコンテキストウィンドウを備えた VLM が推奨されます。

最新の VLM は、ビデオコンテンツを完全に理解できるように装備されており、フレームのシーケンスを分析して、時間の経過に伴うアクションと傾向を理解します。このシーケンシャルな理解により、イベントの進行を捉えることができます。これは、ビデオ内の変更を追跡したり、因果関係を特定したりする必要があるアプリケーションにとって非常に重要です。これらのモデルは時間的理解を向上させますが、ビデオ内で特定のイベントがいつ発生するかを正確に特定するために不可欠な、正確な時間的ローカリゼーションにはまだ苦労する可能性があります。

VLM は進化を続けており、長いビデオ入力での複雑な時間的推論がますます可能になっています。 VLM とビジュアル AI エージェントの可能性を探ることに関心のある方には、さまざまなアプリケーションでこれらのテクノロジーを活用する方法に関する詳細情報とガイダンスを提供するリソースとウェビナーをご利用いただけます。

ソース：NVIDIA Developer Blog