Google Cloud の GPU 付き Cloud Run で Ollama + Local LLM を動かしてみた

要約・抽出情報

この記事でやること Google Cloud の Cloud Run[1]（GPU 付き）に Ollama[2] をデプロイし、ローカルから LLM に話しかけられる環境を構築します。 30B 程度の LLM であれば、今回の方法によりクラウド経由で利用することができます。（ローカルPCの制約は気にしなくて大丈夫！）完成イメージはこんな感じです。ローカルの curl コマンドで、Cloud Run 上の LLM から推論結果が返ってきます。 curl -s localhost:9090/api/generate -d '{ "model": "qwen3-coder:30b"...

この記事をシェアする

この記事の詳細はオリジナルサイトでご確認ください

オリジナルサイトで読む