Amazonは米国時間の2024年12月3日、AWS re:Invent 2024にて独自開発の基盤モデル「Amazon Nova」を発表しました。

Amazon Novaの種類は「Micro」「Lite」「Pro」「Premier」「Canvas」「Reel」の6種類です。
Premierのみ2025年1~3月に公開予定しています。その他モデルはすでに北米リージョンにて利用可能です。以下に簡単な特徴をまとめました。

Micro:トークン上限12万8000。テキストのみ。低コスト・低遅延。
Lite:トークン上限30万。テキスト以外に画像や音声、動画に対応するマルチモーダル。
Pro:Liteの上位互換。Liteより高性能なモデル。
Premier:来年(2025年)公開予定
Canvas:画像生成モデル
Reel:動画生成モデル

2025年初頭には、200万入力トークンにも対応する予定とのことです。

Amazon Novahttps://aws.amazon.com/jp/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance

個人的に一番印象的なのは「動画を読み込み理解できるマルチモーダル機能」です。
いままでだと画像には対応するモデルは多くありましたが、動画を読み込めることによって動的な動作をテキスト化しそのテキストを別のLLMに解析させることもできます。

Amazon Nova(ノヴァ)を 実際に試してみる。

実際に試すにあたり動画が必要なのでその動画もNova Reelに作成させてそれをNova Proにテキスト化させるというのをやってみたいと思います。
ひとまずAWSのプレイグラウンドで試してみます。

Nova Reelで動画作成

Bedrock(北米リージョン)に行きます。プレイグラウンドに行きImage / Videoを選択。

これで行きます。

意外と時間かかりますね。待ちます。

もう少し動きが欲しいのでプロンプト変えます。

できました。

英語でもやったんですけどそこまで変化は。そして動きはそこまで出なかったです。もう少しプロンプトの探求が必要です。

やっと少しうごきました。動きつけるとみだれますね。

https://aws.amazon.com/jp/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance

公式の紹介動画も視点を変えずに動くという感じではあるので。

Nova Proでテキスト化

これをそのままNova Proに入れます。

結果です。

まとめ

動画解析ができるとするとかんがえられるのはまず最初に評価です。
例えばシステムテストの動画でどのような動作をしているかを解析することで問題点特定をするという使いみちは考えられます。
あとは面接自動化。表情などももしも理解できるよう精度になればその時のボディランゲージなども加味する。

全体的に他社も精度が向上してきているので、今回はただプレイグラウンドを使っただけですが、チューニングと合わせてどの程度まで精度をあげれるか。またモデルの進化も数か月単位で進むと思われるのでひとまずPremireを早くみたいなという感じです。

この記事を書いた人

スムーズロゴ
SMOOZ
enterprise-smooz

資料
ダウンロード

マスタデータのメンテナンスに関わる機能をまとめたSaaS「SMOOZ
SMOOZはリレーショナルデータベースの課題を解決するサービスです。
オンラインデモで気軽に試すことが可能です。