LangChain.jsのRecursiveUrlLoaderを使って、EmbeddingのためにWebページをスクレイピングする
RAG(Red, Amber, Green)を作る際には、通常はSQLやREST/GraphQLのAPI、またはAmazon S3などのファイルを読み込む方法でデータを取得すると思われますが、場合によってはスクレイピングが必要になることもあります。RecursiveUrlLoaderを使用してデータをスクレイピングする方法についてまとめました。ライブラリの追加や実装方法なども詳しく説明されています。また、スクレイピングするページを制御したり、除外したりする方法も紹介されています。REST API等が利用可能な場合はそちらの方が簡単ですが、スクレイピングが必要な場合にはこの方法を検討する価値があるかもしれません。