LangChainやBedrockなどを使ってAIアプリを作る際、課題になりやすいのが「実行結果の評価」です。「質問に対して正しい回答ができているかどうか」をモニタリングする仕組みを用意しないと、ハルシネーションを起こしたことに気づけず、ユーザー体験を損なうおそれがあります。
今回はLangChainを提供している会社がリリースしているLangSmithを使ってみました。
Table of Contents
無料でアカウントを作成
LangSmithは https://langchain.com/langsmith からアカウントを作れます。1ユーザー限定にはなりますが、無料で試すことができるので、製品評価や実装テストなども手軽に行えます。
アカウントも、GitHubやGoogleを使うことができるので、IDやパスワードを管理する手間も省けます。
デモ用のプロジェクトを覗いてみる
アカウントを作った後は、まずプロジェクトを作ります。このプロジェクト1つに対してLLMを使ったAIアプリを関連づけるような使い方になりそうです。
アカウント作成直後では、default
というデモ用のプロジェクトが用意されています。このプロジェクトを見ることで、どんなデータを見ることができるかなどのリサーチがしやすくなっている様子です。
default
プロジェクトを見ると、すでにLLMアプリの実行結果が1つ追加されています。消費トークンやレイテンシ、実行日時と入出力が一覧で見ることができました。
また、実行結果を深掘りすると、トレースログも確認できます。ここではLangChainを使ってLLMのAPIをどの順番で、どんなプロンプトで実行したかなどが追いかけれました。LLMを使ったアプリでは、2回も3回も繰り返して呼び出しを行い、回答精度を高めるような作り方をします。そのため、このようなトレース機能を使うことで、どのステップで意図しない回答が発生したかなどを調査できます。
このほかにも、ステップごとのリプレイ機能でしょうか?Top Pやtemperature・モデルなどを調整できるツールも用意されています。
アプリケーションへの組み込みは、JavaScriptとPythonで
LangChainの公式SDKがサポートしている言語のみ利用できるみたいです。環境変数としてexportしておくと、SDKがそれを利用してトレースしてくれるような作りになっていました。
触ってみて
LangChainでいうChainに相当する、複数回のLLM API呼び出しをトレースするツールとして、LangSmithは無料で簡単に試すことができそうです。ただ、Cloudflareのような環境変数の読み込み方がNode.jsと少し異なる環境では、使い方に工夫が必要かもしれません。
組み込みに挑戦した際は、こちらもブログとして紹介したいと思います。
ブックマークや限定記事(予定)など
WP Kyotoサポーター募集中
WordPressやフロントエンドアプリのホスティング、Algolia・AWSなどのサービス利用料を支援する「WP Kyotoサポーター」を募集しています。
月額または年額の有料プランを契約すると、ブックマーク機能などのサポーター限定機能がご利用いただけます。
14日間のトライアルも用意しておりますので、「このサイトよく見るな」という方はぜひご検討ください。