2025.02.20

Amazon Novaで始めるマルチモーダルLLM

yassan

本ブログ投稿ではAmazon Novaの優れたメリットや、Amazon NovaでマルチモーダルLLMを始める方法を共有します。

Contents

Amazon Novaとは
Amazon Novaの優れたメリット
1. Amazon NovaはAWSクレジットを適用することができます
Amazon NovaはマルチモーダルLLMです
Amazon NovaでマルチモーダルLLMを始めよう！
まとめ

Amazon Novaとは

Amazon Nova は、最先端 (SOTA) のインテリジェンスと業界トップクラスの料金パフォーマンスを実現する新世代の最先端基盤モデル (FM) です。Amazon Bedrock でのみご利用いただけます。
Amazon Nova – 生成基盤モデル – AWS

また、Amazon Bedrock は、単一の API を通じて先駆的な AI 企業からの高性能な基盤モデル（FM）の幅広い選択肢を提供するフルマネージドサービスです。

Amazon Novaの優れたメリット

Amazon Novaの最も優れたメリットは、業界トップクラスのコストパフォーマンスです。1,000入力トークンあたりの料金が$0.0008、1,000出力トークンあたりの料金が$0.0032で利用可能です。

以下のグラフは「Amazon Nova Pro」と「Claude 3.5 Sonnet」を比較しています。

以下の表はチャット＆テキストの生成系AIカテゴリにおける、100万トークン/月のコスト比較表になります。Amazon Nova Proは5ドル未満で利用可能です。

基盤モデル	入力トークン料金	出力トークン料金	毎月の料金（入力+出力の合計）
Amazon Nova Pro	$0.8	$3.2	$4
Amazon Nova Lite	$0.06	$0.24	$0.3
Amazon Nova Micro	$0.035	$0.0175	$0.0525
Claude 3.5 Sonnet	$3	$15	$18
Calude 3 Haiku	$0.25	$1.25	$1.5

100万トークン/月のコスト比較

次に、画像生成の生成系AIカテゴリにおける画像1枚の生成コストの比較になります。オプションにもよりますが、大きなコスト差はありませんでした。

基盤モデル	料金（画像1枚）	備考
Amazon Nova Canvas	$0.08	プレミア品質の場合
Stable Diffusion 3.5 Large	$0.08

画像1枚のコスト比較

Amazon NovaはAWSクレジットを適用することができます

Amazon Novaシリーズは、AWS Marketplaceを経由せずに利用する基盤モデルであるため、AWSクレジットを適用することができます。つまり、AWSクレジットを保持していれば、クレジットの残高分は無料で利用することができます。

Amazon NovaはマルチモーダルLLMです

マルチモーダルとは、テキスト、音声、画像、動画、センサー情報など、2つ以上の異なるモダリティ（データの種類）から情報を収集し、それらを統合して処理することができるものです。Amazon NovaはマルチモーダルLLMです。

Amazon Novaで扱えるモダリティを以下の表にまとめました。

基盤モデル	扱えるモダリティ
Amazon Nova Pro Amazon Nova Lite	最大5ファイルまで・Documents (.csv, .doc, .docx, .html, .md, .pdf, .txt, .xls, .xlsx) ・Images (.gif, .jpeg, .png, .webp) ・Videos (.flv, .mkv, .mov, .mp4, .mpeg, .mpg, .3gp, .webm, .wmv)
Amazon Nova Micro	テキストのみ
Amazon Nova Canvas	・Images (.png, .jpeg)
Amazon Nova Reel	・Images (.png, .jpeg)

Amazon Novaで扱えるモダリティ（データの種類）

Amazon NovaでマルチモーダルLLMを始めよう！

マルチモーダルの利用例をご紹介します。

スライド資料からAWSサービスの特徴をまとめる

まずは、基本的なマルチモーダルの利用例です。PDFのスライド資料をモダリティにして、テキストを生成します。ここでは、「AWS INNOVATE MIGRATION. MODERNIZE. BUILD.」のスライド資料の「ステップバイステップで考えるAmazon ECSのIaCとCI/CD」をモダリティにしてテキストを生成しました。

以下の図のように、Amazon Bedrockのプレイグラウンドを用いてシンプルなプロンプトによる出力ですが、Amazon ECSの特徴をまとめることができました。

状態画像（Conditioning Image）を活用して画像を生成する

次にAmazon Nova Canvasにおける状態画像（Conditioning Image）を利用した画像生成をご紹介します。画像の基調を整えるための状態画像を選択することができます。画像生成のために状態画像を選択するという機能自体は、テキストによるプロンプトに加えて画像をモダリティに加えているため、マルチモーダルと言えるのではないでしょうか。

この例ではシンプルなプロンプト「Please generate Shiba Inu in illustration style.」を用いて、魅力的なイラストを生成することができました。以下の図が出力例になります。

生成した画像を開始フレームに指定して動画を生成する

最後に、Amazon Nova Reelにおける開始フレーム（Start frame）を利用した動画生成をご紹介します。Amazon Novaと同じように動画の基調を整えるための開始フレームを画像ファイルから選択することができます。こちらもテキストによるプロンプト以外のモダリティを加えることができるという意味で、マルチモーダルと言えるのではないでしょうか。

この例では、シンプルなプロンプト「Shiba Inu playing with a custom.」を用いて、動画を生成しました。6本足の動物ができてしまいました。プロンプトによる詳細な説明を含める必要があるのかもしれません。以下の図が出力例になります。