エンジニアBLOG

2024/02/14

画像入力できるAIチャットを自宅のPCで遊ぶ

1.画像入力対応のAIチャット

皆さんは画像入力対応のAIチャットについて興味ありませんか?ありますよね?
有名なものにGPT-4Vがありますが、有償サービスのChat-GPT Plusの契約が必要となるためなかなか手を出せないという方もいるのではないでしょうか?
今回は、OSSで画像対応もしているLLaVAをWindowsマシン上に構築して遊んでみようと思います

[Chat-GPT Plus] https://openai.com/blog/chatgpt-plus


[LLaVA] https://llava-vl.github.io/

2.検証環境

OS Windows 11 Pro 64bit
CPU Corei7-13700KF
メモリ DDR5-4800 32GB
GPU Geforce RTX4070Ti 12GB
その他 WSL2 / Ubuntu 22.04.3

3.環境構築

基本的にはWSL2のUbuntu上で次のページの手順に沿って操作します。

https://github.com/haotian-liu/LLaVA/blob/main/docs/Windows.md

Pythonの実行環境はcondaでもpyenvでもお好みのもので大丈夫です。
公式ではcondaを使用しているのでここではpyenvの手順を掲載しておきます。
condaを使用する場合(公式の手順)でも環境によっては不足しているコマンドがある場合があります。出力されるエラー、以下のpyenvでのコマンドも参考にしてみてください。

● pyenv インストール