
工場、物流倉庫、研究施設、商業施設、インフラ設備などでは、日々多くのIPカメラ映像が取得されています。
これまでカメラ映像は、主に「録画して、必要なときに人が確認する」ためのものでした。
しかし現場では、次のようなニーズが高まっています。
「人が危険エリアに入ったら検知したい」
「フォークリフトや作業者の動きを把握したい」
「荷物やパレットの状態をカメラで確認したい」
「映像を人が見続けるのではなく、AIに状況を判断させたい」
「ただし、映像データをクラウドには出したくない」
こうした課題に対して、株式会社ジーライブでは、NVIDIA Jetson Thorを活用したオンプレミスAI映像解析システムの開発に取り組んでいます。
本システムでは、Jetson Thor上でVLM(Vision Language Model)やSAM 3を動作させ、IPカメラから取得した映像をオンプレ環境内で処理します。クラウドに映像を送信せず、現場内・社内ネットワーク内でAI解析を行うことで、セキュリティに配慮しながら高度な映像活用を実現します。
NVIDIAはJetson Thorを、フィジカルAIやロボティクス向けのプラットフォームとして位置づけており、最大2,070 FP4 TFLOPSのAI演算性能、128GBメモリ、40W〜130Wの電力構成を特徴として紹介しています。従来のJetson AGX Orinと比較して、AI演算性能は最大7.5倍、エネルギー効率は3.5倍とされています。
IPカメラ映像をAIで解析する場合、クラウドへ映像を送って処理する方法もあります。
しかし、現場によってはクラウド利用が難しいケースがあります。
たとえば、製造業では工場内の作業工程や設備配置が機密情報にあたる場合があります。研究施設では、実験環境や試作品が映像に含まれることがあります。物流倉庫では、荷主情報や出荷状況が映像に映り込む可能性があります。
そのため、映像をクラウドに送らず、現場側でAI処理を完結させる構成が求められます。
Jetson Thorは、こうしたエッジAI処理に適したハードウェアです。IPカメラ映像を現場で受け取り、AIで解析し、必要な結果だけを通知・保存・連携することで、映像データの外部送信を抑えながら、リアルタイム性の高いAI活用が可能になります。
従来の画像認識AIは、あらかじめ学習した対象を検知する使い方が中心でした。
たとえば、
といった用途です。
一方で、VLMを活用すると、画像や映像の内容を言語と結びつけて扱えるようになります。
たとえば、現場映像に対して次のような判断を行うことができます。
「通路に荷物が置かれているか」
「作業者が危険エリアに入っていないか」
「フォークリフトの近くに人がいるか」
「パレット上の荷物に変化があるか」
「通常と異なる状態が発生していないか」
つまり、単に物体を検出するだけでなく、映像の状況をAIが理解し、現場業務に使える情報へ変換することが重要になります。
ジーライブでは、Jetson Thor上でSAM 3を活用し、IPカメラ映像内の対象物を検出・セグメンテーション・追跡する構成を想定しています。
SAM 3は、Metaが発表しているSegment Anything Modelの新しいモデルで、画像や動画に対して、テキスト、例示画像、視覚プロンプトを用いたセグメンテーションに対応するモデルとして紹介されています。また、画像・動画内の対象物を検出、分割、追跡する用途に対応するとされています。
これにより、IPカメラ映像に対して、次のような処理を行うことができます。
従来のAIカメラでは、検知対象ごとに個別モデルの調整が必要になる場合がありました。SAM 3やVLMを活用することで、より柔軟に対象物やシーンを指定し、現場ごとの用途に合わせた映像解析がしやすくなります。
本システムでは、IPカメラから取得した映像を、オンプレ環境内のJetson Thorで処理します。
構成イメージは以下の通りです。
重要なのは、映像そのものをクラウドへ送らず、現場側でAI処理を完結できる点です。
たとえば、アラートが必要なシーンだけを保存する、検知結果だけを社内システムに連携する、映像の要約情報だけを管理画面に表示する、といった運用が可能になります。
工場では、危険エリアへの侵入、フォークリフトと作業者の接近、保護具の着用状況などを確認する必要があります。
Jetson Thor上で映像を解析することで、現場内でAIが状況を判断し、危険な状態が発生した場合にアラートを出す仕組みを構築できます。
物流倉庫では、荷物の滞留、通路のふさがり、パレットの配置、フォークリフトの動線など、現場状況をリアルタイムに把握することが重要です。
IPカメラ映像をAIで解析することで、現場の混雑状況や作業状態を可視化し、管理者の確認負担を軽減できます。
施設管理では、夜間や無人時間帯の立ち入り、制限区域への侵入、設備周辺の異常などを確認する必要があります。
オンプレ環境でAI処理を行うことで、監視映像を外部に出さず、必要な検知結果だけを通知する構成が可能になります。
SAM 3によるセグメンテーションを活用することで、映像内の荷物やパレットを領域として把握し、配置や状態の変化を確認する用途にも展開できます。
将来的には、数量確認、積載状態確認、置き場管理、在庫状況の可視化などへの応用も考えられます。
Jetson Thorを活用したオンプレAI映像解析の価値は、単に「AIで映像を見られる」ことではありません。
重要なのは、現場で発生している状況を、AIが即時に把握し、業務に使える情報へ変換することです。
たとえば、
といった効果が期待できます。
また、クラウドに映像を出さない構成にすることで、セキュリティ要件の厳しい現場でもAI活用を進めやすくなります。
ジーライブでは、Jetson Thorを活用したオンプレAI開発において、以下のような領域を支援します。
ハードウェアを導入するだけでは、現場で使える仕組みにはなりません。
ジーライブでは、IPカメラ、AIモデル、Jetson Thor、管理画面、通知、ログ、業務システム連携までを一体で設計し、現場業務に組み込めるAIソリューションとして提供していきます。
今後は、Jetson Thor上で動作するVLM/SAM 3を活用し、より高度な映像理解・映像検索・映像要約への展開を進めていきます。
具体的には、次のような機能を想定しています。
Jetson Thorを活用することで、これまで録画中心だったIPカメラを、現場の状況を理解し、判断を支援するAIセンサーへ進化させることができます。
IPカメラは、多くの現場ですでに導入されています。
しかし、その映像を人が確認するだけでは、現場の負担は大きく、リアルタイムな判断にも限界があります。
Jetson Thor上でVLMやSAM 3を動作させることで、IPカメラ映像をオンプレ環境内でAI解析し、人・車両・荷物・危険エリアなどを柔軟に検出・追跡できる仕組みを構築できます。
クラウドに映像を送らず、現場内でAI処理を完結できるため、セキュリティ要件の厳しい製造業、物流、研究施設、インフラ、施設管理などの現場にも適した構成です。
ジーライブは、Jetson Thorを活用したオンプレAI映像解析システムの開発を通じて、現場の安全管理、業務効率化、映像活用、データ化を支援してまいります。
Jetson Thorを活用したオンプレAI開発、IPカメラ映像解析、VLM/SAM 3を活用した現場AIシステムにご関心がございましたら、お気軽にお問い合わせください。
株式会社ジーライブ
E-mail:contact@geelive-inc.com
URL:https://geelive-inc.jp/