1.画像入力対応のAIチャット
皆さんは画像入力対応のAIチャットについて興味ありませんか?ありますよね?
有名なものにGPT-4Vがありますが、有償サービスのChat-GPT Plusの契約が必要となるためなかなか手を出せないという方もいるのではないでしょうか?
今回は、OSSで画像対応もしているLLaVAをWindowsマシン上に構築して遊んでみようと思います
[Chat-GPT Plus] https://openai.com/blog/chatgpt-plus
[LLaVA] https://llava-vl.github.io/
2.検証環境
OS | Windows 11 Pro 64bit |
CPU | Corei7-13700KF |
メモリ | DDR5-4800 32GB |
GPU | Geforce RTX4070Ti 12GB |
その他 | WSL2 / Ubuntu 22.04.3 |
3.環境構築
基本的にはWSL2のUbuntu上で次のページの手順に沿って操作します。
https://github.com/haotian-liu/LLaVA/blob/main/docs/Windows.md
Pythonの実行環境はcondaでもpyenvでもお好みのもので大丈夫です。
公式ではcondaを使用しているのでここではpyenvの手順を掲載しておきます。
condaを使用する場合(公式の手順)でも環境によっては不足しているコマンドがある場合があります。出力されるエラー、以下のpyenvでのコマンドも参考にしてみてください。
● pyenv インストール