Amazon Bedrockの管理画面で、モデルの比較を行う

この記事では、AWSマネージメントコンソールを使用して複数の生成AIモデルを比較する方法が紹介されています。モデル選定はアプリ開発において重要なステップであり、Amazon Bedrockを使用することで簡単に比較検証が可能です。モデル間の生成結果・精度・入出力のバリエーションを確認できるだけでなく、テキスト生成結果やトークン数、生成時間などを比較することもできます。将来的にはEmbeddingなど他の機能も比較できるようになることが期待されています。

この記事では、AWSマネージメントコンソールを使って複数の生成AIモデルの比較を行う方法を紹介します。生成AIアプリを開発する際のモデル選定を簡単に行う方法の参考になれば幸いです。また、この記事は「Amazon Bedrock Advent Calendar 2024」7日目に参加するために作成しました。

どのモデルがユースケースに適しているかの選定

生成AIとひとくちに称しても、Amazon / Claude / OpenAI / Metaなど、さまざまなモデルが提供されており、どのモデルを利用するかで生成結果やその精度、入出力のバリエーションなどが変わります。そのため、アプリケーション開発においてどのモデルを選択するかは重要度の高いステップといえます。

AWSのマネージメントコンソールで簡単に比較を行う

モデルの比較検証を簡単に行う方法の1つが、Amazon Bedrockです。Bedrockにはモデル比較機能が用意されているため、これを活用することでどのモデルがユースケースに適しているかを簡単に調査できます。

モデルの比較は、プレイグラウンドから

モデルの比較は、[プレイグラウンド]から行えます。[比較モード]を有効化すると、2つのモデルを同時に利用できるようになります。

ClaudeとAmazon Titanを選択してみましょう。するとモデルごとに設定をカスタマイズするUIも表示されます。スクリーンショットにある部分だけでも、Claude側にのみシステムプロンプトの設定が行えることが伺えます。

モデルを2つ指定した状態でテキストを入力すると、両方のモデルに対して同じプロンプトが送信されます。今回は生成AIアプリの企画をAmazon流で提案してもらいました。

実行した結果は次のように比較ができます。テキスト生成結果だけでなく、入力・出力のトークン数や生成にかかった時間なども比較できるようになっています。Claudeの方が入力時のトークン数が多い（67 vs 36）ですが、出力トークン数は半分以下（1007 vs 2048）です。また生成にかかった時間も大きく異なる（20517ms vs 92015ms）ことや、生成結果の質もClaude側に軍配があがっています。Titan Text G1 Expressは日本語を苦手とするような生成結果ですね。

ちなみにこの結果はJSONでもエクスポートできます。しかしこちらでは秒数やトークン数の情報は取得できませんので、ダッシュボードで比較する方が使い勝手が良さそうに見えます。

個人的には、Embedding比較にも期待

今の所、この比較機能はテキスト生成のみに対応しています。そのため画像生成やEmbedding方面については、別の方法を模索する必要があります。個人的にはEmbeddingの比較検証をやれるとうれしいなーと思う部分もありますので、将来的にCohereやTitanなどが比較できるようになることに期待です。