VPS dla aplikacji AI — self-hosted asystenci, LLM, automatyzacje
Opublikowano: 26 czerwca 2026 · Kategoria: VPS / AI
Hosting aplikacji AI na własnym serwerze VPS daje pełną kontrolę nad danymi, brak limitów API i możliwość integracji z dowolnymi narzędziami. Kompletny poradnik wyboru VPS do aplikacji AI znajdziesz w artykule Jaki VPS wybrać? — poniżej skupiamy się wyłącznie na wymaganiach i scenariuszach dla workloadów AI.
Jakie aplikacje AI można hostować na VPS?
Hosting aplikacji AI na VPS — bez GPU — ma sens dla wielu praktycznych zastosowań:
Ollama to serwer modeli językowych uruchamiany w Dockerze lub natywnie — udostępnia API kompatybilne z OpenAI. OpenWebUI działa jako interfejs czatu nad Ollamą lub dowolnym API. Całość (Ollama + OpenWebUI + baza wektorowa) uruchamia się przez Docker Compose i jest dostępna przez przeglądarkę po zabezpieczeniu Nginxem i SSL.
Bot Telegram lub Discord z odpowiedziami generowanymi przez LLM — lokalny model lub zewnętrzne API (OpenAI, Anthropic, Gemini). VPS daje stały adres IP dla webhooków, możliwość trwałego przechowywania historii rozmów i pełną kontrolę nad danymi użytkowników. Wiele organizacji preferuje self-hosted z tego powodu.
System RAG wzbogaca model o wiedzę z Twoich dokumentów (PDF, bazy danych, strony www). Składniki: model embeddingów (np. nomic-embed-text przez Ollama), baza wektorowa (Chroma lub Qdrant w Dockerze) i orchestrator (Langchain, LlamaIndex). Całość mieści się na VPS z 8–16 GB RAM i umożliwia zadawanie pytań do własnych zasobów bez wysyłania danych do zewnętrznych API.
n8n self-hosted obsługuje węzły AI (połączenie z Ollamą lub zewnętrznym API) — klasyfikacja e-maili, streszczanie dokumentów, generowanie treści jako krok w pipeline. Automatyzacje działają bez limitu wykonań — płacisz tylko za VPS, nie za wywołania API. Przetwarzanie wsadowe (klasyfikacja tysięcy dokumentów przez noc) to scenariusz gdzie CPU VPS sprawdza się ekonomicznie.
LiteLLM self-hosted jako proxy do wielu providerów (OpenAI, Anthropic, Gemini, Ollama) z jednym API — przełączanie modeli bez zmiany kodu, rate limiting, logowanie kosztów, cache odpowiedzi. PrivateGPT lub Open Artifact do analizy dokumentów prywatnych. Transkrypcja audio przez Whisper (openai/whisper lub faster-whisper) — CPU-intensywna, ale możliwa bez GPU dla umiarkowanych wolumenów.
Wymagania RAM, CPU i dysku dla aplikacji AI
| Aplikacja AI | RAM (orient.) | Dysk | GPU potrzebny? |
|---|---|---|---|
| Ollama + Llama 3 8B (Q4) | 6–8 GB | 30–50 GB | Nie (CPU) |
| Ollama + model 13B (Q4) | 10–14 GB | 40–60 GB | Nie (CPU, wolno) |
| RAG (Chroma/Qdrant + embeddingi) | 8–16 GB | 40–100 GB | Nie |
| Whisper transkrypcja (CPU) | 4–8 GB | 20–40 GB | Nie (CPU, wolno) |
| Modele 30B+, obsługa wielu userów | 24 GB+ | 80 GB+ | Zalecany GPU VPS |
Dysk NVMe jest wskazany przy bazach wektorowych i dużych modelach — szybki odczyt pliku modelu przy starcie Ollamy i operacje I/O bazy wektorowej mają mierzalny wpływ na czas odpowiedzi. Rozmiar modelu na dysku: orientacyjnie 1 GB na każdy miliard parametrów przy kwantyzacji Q4 (Llama 3 8B ≈ 4,7 GB, model 13B ≈ 7,4 GB).
Kiedy CPU wystarcza, a kiedy potrzebny jest GPU?
CPU VPS wystarczy gdy:
- Obsługujesz jedną osobę lub małe zespoły (kilka równoległych zapytań)
- Używasz modeli do 13B parametrów skwantyzowanych do Q4/Q5
- Przetwarzanie wsadowe — nie zależy Ci na czasie rzeczywistym
- Boty i automatyzacje wysyłające zapytania do zewnętrznego API (OpenAI, Anthropic)
- RAG z bazą wektorową i małym modelem embeddingów
- Transkrypcja audio w trybie wsadowym (nie na żywo)
GPU VPS lub zewnętrzne API są wskazane gdy:
- Obsługujesz wielu równoległych użytkowników z wymaganiami czasu rzeczywistego
- Używasz modeli 30B+ lub potrzebujesz wysokiej jakości odpowiedzi
- Generujesz obrazy (Stable Diffusion, Flux)
- Transkrypcja audio na żywo (real-time speech-to-text)
- Fine-tuning lub trening modeli (wymagania GPU są znaczne)
Dla większości zastosowań w małych i średnich firmach — asystent wewnętrzny, bot obsługi klienta, klasyfikacja dokumentów — CPU VPS z odpowiednią ilością RAM jest ekonomicznym i sprawdzonym rozwiązaniem. Przy skalowaniu można w każdej chwili przenieść się na GPU VPS lub oddelegować ciężkie zapytania do zewnętrznego API, zostawiając lekkie zadania na CPU.
Koszty hostowania aplikacji AI — VPS vs API
VPS do hostowania AI to stały miesięczny koszt niezależny od liczby wygenerowanych tokenów. Przy intensywnym użyciu własny serwer jest ekonomiczniejszy niż płatność za API. Orientacyjne porównanie:
- VPS 8 GB RAM (orient. 60–120 zł/mies. netto) — nieograniczone wywołania lokalnego modelu
- Zewnętrzne API AI — płatność za tokeny (ceny zmienne, sprawdź u dostawcy). Przy dużym wolumenie może być znacznie droższe niż self-hosted.
- Dodatkowe koszty VPS: transfer danych, snapshoty, ewentualnie większy dysk na modele
Break-even zależy od wolumenu zapytań i wybranego modelu zewnętrznego. Dla projektów z dużą liczbą codziennych zapytań self-hosted często okazuje się tańszym rozwiązaniem w skali roku. Użyj kalkulatora kosztów, aby porównać plany VPS.
Bezpieczeństwo self-hosted AI na VPS
Modele językowe wystawione bez autoryzacji mogą być nadużywane przez boty lub nieuprawnione osoby. Kilka kluczowych kroków:
Port Ollamy (11434) nigdy bezpośrednio na internet — zawsze za Nginxem z Basic Auth lub tokenem Bearer. Certyfikat SSL przez Let's Encrypt dla szyfrowania połączenia.
Firewall (ufw) blokujący wszystkie porty poza 80, 443 i SSH. Rate limiting w Nginx ogranicza liczbę zapytań z jednego IP. Jeśli model używany wewnętrznie — dostęp tylko przez VPN lub IP whitelist.
Regularne aktualizacje systemu i Ollamy. Monitoring zużycia RAM (VPS z AI może mieć nagłe skoki przy dużych zapytaniach), logi dostępu Nginxa i alertowanie przy anomaliach. Sprawdź checklist: Bezpieczeństwo VPS →
Sprawdź oferty pasujące do tego scenariusza
Poniżej masz szybkie przejścia do ofert i stron z kodami rabatowymi tam, gdzie są dostępne.
Często zadawane pytania
Ile RAM potrzebuje self-hosted LLM na VPS?
Llama 3 8B w GGUF Q4 potrzebuje orientacyjnie 5–8 GB RAM. Model 13B w Q4 — ok. 9–12 GB. Modele 70B+ wymagają od 40 GB RAM lub GPU. Dodaj zapas na system i bazę wektorową (1–2 GB). Praktyczne minimum: 8 GB RAM dla małego asystenta, 16 GB dla rozbudowanego systemu RAG.
Czy VPS bez GPU nadaje się do hostowania modeli AI?
Tak — mniejsze modele (do 13B w Q4/Q5) na CPU generują kilka do kilkudziesięciu tokenów/sekundę — wystarczy dla asystenta dla jednej osoby lub przetwarzania wsadowego. Wielu równoległych użytkowników w czasie rzeczywistym lub modele 30B+ — wtedy GPU VPS lub zewnętrzne API.
Jakie aplikacje AI można hostować na zwykłym VPS?
Ollama z małymi modelami, OpenWebUI, n8n z węzłami AI, boty Telegram/Discord z LLM, pipeline RAG z Chroma/Qdrant, serwer Whisper do transkrypcji, LiteLLM proxy. Wszystkie działają na CPU przy umiarkowanym ruchu.
Co to jest RAG i jak go hostować na VPS?
RAG (Retrieval-Augmented Generation) wzbogaca model o zewnętrzną wiedzę. Składniki: model embeddingów (Ollama), baza wektorowa (Chroma/Qdrant w Dockerze), model LLM i orchestrator (Langchain/AnythingLLM). Mieści się na VPS z 8–16 GB RAM.
Jak zabezpieczyć self-hosted LLM na VPS?
Nginx jako reverse proxy z Basic Auth lub JWT przed Ollamą — nigdy port 11434 na internet. Firewall ufw, certyfikat SSL Let's Encrypt, rate limiting, regularne aktualizacje systemu i Ollamy.