VPS dla aplikacji AI — self-hosted asystenci, LLM, automatyzacje

Q: Ile RAM potrzebuje self-hosted LLM na VPS?

Zależy od modelu i formatu kwantyzacji. Llama 3 8B w GGUF Q4 potrzebuje orientacyjnie 5–8 GB RAM. Model 13B w Q4 — ok. 9–12 GB. Modele 70B+ wymagają od 40 GB RAM lub GPU. Zawsze dodaj zapas na system, inne procesy i bazę danych wektorową (Chroma, Qdrant — 1–2 GB). Minimum praktyczne: 8 GB RAM dla małego asystenta, 16 GB dla bardziej rozbudowanego systemu RAG.

Q: Czy VPS bez GPU nadaje się do hostowania modeli AI?

Tak — dla wielu zastosowań CPU wystarcza. Mniejsze modele (do 13B parametrów skwantyzowane do Q4/Q5) generują tekst z prędkością kilku do kilkudziesięciu tokenów/sekundę na CPU, co wystarczy dla asystenta obsługującego jedną osobę lub przetwarzania wsadowego. Przy obsłudze wielu równoległych użytkowników w czasie rzeczywistym lub modelach 30B+ warto rozważyć GPU VPS lub zewnętrzne API.

Q: Jakie aplikacje AI można hostować na zwykłym VPS?

Na VPS bez GPU możesz uruchomić: Ollama z małymi modelami (Llama, Mistral, Gemma), OpenWebUI jako frontend dla modeli, n8n z węzłami AI, automatyzacje z Langchain/LlamaIndex i lokalnym modelem, boty Telegram/Discord zasilane API modeli, pipeline RAG z bazą wektorową Chroma lub Qdrant, serwer Whisper do transkrypcji (CPU-intensywne, ale możliwe). GPU nie jest wymagane dla tych zastosowań przy umiarkowanym ruchu.

Q: Co to jest RAG i jak go hostować na VPS?

RAG (Retrieval-Augmented Generation) to technika wzbogacania modelu językowego o zewnętrzną wiedzę — dokumenty, bazy danych, strony www. System pobiera fragmenty pasujące do pytania i przekazuje je modelowi jako kontekst. Składniki na VPS: model embeddingów (np. nomic-embed-text przez Ollama), baza wektorowa (Chroma, Qdrant — Docker), model LLM i orchestrator (Langchain, LlamaIndex, AnythingLLM). Całość mieści się na VPS z 8–16 GB RAM.

Q: Jak zabezpieczyć self-hosted LLM na VPS?

Podstawowe kroki bezpieczeństwa: Nginx jako reverse proxy z autoryzacją (Basic Auth lub JWT) przed endpointem Ollama — nigdy nie wystawiaj portu 11434 bezpośrednio na internet. Firewall (ufw) blokujący nieużywane porty. Certyfikat SSL przez Let's Encrypt. Regularne aktualizacje systemu i Ollamy. Jeśli VPS jest dostępny publicznie — rate limiting w Nginx, żeby uniknąć nadużyć tokenów.

Opublikowano: 26 czerwca 2026 · Kategoria: VPS / AI

Hosting aplikacji AI na własnym serwerze VPS daje pełną kontrolę nad danymi, brak limitów API i możliwość integracji z dowolnymi narzędziami. Kompletny poradnik wyboru VPS do aplikacji AI znajdziesz w artykule Jaki VPS wybrać? — poniżej skupiamy się wyłącznie na wymaganiach i scenariuszach dla workloadów AI.

Jakie aplikacje AI można hostować na VPS?

Hosting aplikacji AI na VPS — bez GPU — ma sens dla wielu praktycznych zastosowań:

Self-hosted asystenci i chatboty — Ollama, OpenWebUI, AnythingLLM

Ollama to serwer modeli językowych uruchamiany w Dockerze lub natywnie — udostępnia API kompatybilne z OpenAI. OpenWebUI działa jako interfejs czatu nad Ollamą lub dowolnym API. Całość (Ollama + OpenWebUI + baza wektorowa) uruchamia się przez Docker Compose i jest dostępna przez przeglądarkę po zabezpieczeniu Nginxem i SSL.

Boty AI — Telegram, Discord, integracje z systemami biznesowymi

Bot Telegram lub Discord z odpowiedziami generowanymi przez LLM — lokalny model lub zewnętrzne API (OpenAI, Anthropic, Gemini). VPS daje stały adres IP dla webhooków, możliwość trwałego przechowywania historii rozmów i pełną kontrolę nad danymi użytkowników. Wiele organizacji preferuje self-hosted z tego powodu.

RAG — Retrieval-Augmented Generation z własnymi dokumentami

System RAG wzbogaca model o wiedzę z Twoich dokumentów (PDF, bazy danych, strony www). Składniki: model embeddingów (np. nomic-embed-text przez Ollama), baza wektorowa (Chroma lub Qdrant w Dockerze) i orchestrator (Langchain, LlamaIndex). Całość mieści się na VPS z 8–16 GB RAM i umożliwia zadawanie pytań do własnych zasobów bez wysyłania danych do zewnętrznych API.

Automatyzacje AI — n8n z węzłami AI, pipeline'y przetwarzania danych

n8n self-hosted obsługuje węzły AI (połączenie z Ollamą lub zewnętrznym API) — klasyfikacja e-maili, streszczanie dokumentów, generowanie treści jako krok w pipeline. Automatyzacje działają bez limitu wykonań — płacisz tylko za VPS, nie za wywołania API. Przetwarzanie wsadowe (klasyfikacja tysięcy dokumentów przez noc) to scenariusz gdzie CPU VPS sprawdza się ekonomicznie.

API proxy do modeli — własna warstwa nad zewnętrznymi LLM

LiteLLM self-hosted jako proxy do wielu providerów (OpenAI, Anthropic, Gemini, Ollama) z jednym API — przełączanie modeli bez zmiany kodu, rate limiting, logowanie kosztów, cache odpowiedzi. PrivateGPT lub Open Artifact do analizy dokumentów prywatnych. Transkrypcja audio przez Whisper (openai/whisper lub faster-whisper) — CPU-intensywna, ale możliwa bez GPU dla umiarkowanych wolumenów.

Wymagania RAM, CPU i dysku dla aplikacji AI

Aplikacja AI	RAM (orient.)	Dysk	GPU potrzebny?
Ollama + Llama 3 8B (Q4)	6–8 GB	30–50 GB	Nie (CPU)
Ollama + model 13B (Q4)	10–14 GB	40–60 GB	Nie (CPU, wolno)
RAG (Chroma/Qdrant + embeddingi)	8–16 GB	40–100 GB	Nie
Whisper transkrypcja (CPU)	4–8 GB	20–40 GB	Nie (CPU, wolno)
Modele 30B+, obsługa wielu userów	24 GB+	80 GB+	Zalecany GPU VPS

Dysk NVMe jest wskazany przy bazach wektorowych i dużych modelach — szybki odczyt pliku modelu przy starcie Ollamy i operacje I/O bazy wektorowej mają mierzalny wpływ na czas odpowiedzi. Rozmiar modelu na dysku: orientacyjnie 1 GB na każdy miliard parametrów przy kwantyzacji Q4 (Llama 3 8B ≈ 4,7 GB, model 13B ≈ 7,4 GB).

Kiedy CPU wystarcza, a kiedy potrzebny jest GPU?

CPU VPS wystarczy gdy:

Obsługujesz jedną osobę lub małe zespoły (kilka równoległych zapytań)
Używasz modeli do 13B parametrów skwantyzowanych do Q4/Q5
Przetwarzanie wsadowe — nie zależy Ci na czasie rzeczywistym
Boty i automatyzacje wysyłające zapytania do zewnętrznego API (OpenAI, Anthropic)
RAG z bazą wektorową i małym modelem embeddingów
Transkrypcja audio w trybie wsadowym (nie na żywo)

GPU VPS lub zewnętrzne API są wskazane gdy:

Obsługujesz wielu równoległych użytkowników z wymaganiami czasu rzeczywistego
Używasz modeli 30B+ lub potrzebujesz wysokiej jakości odpowiedzi
Generujesz obrazy (Stable Diffusion, Flux)
Transkrypcja audio na żywo (real-time speech-to-text)
Fine-tuning lub trening modeli (wymagania GPU są znaczne)

Dla większości zastosowań w małych i średnich firmach — asystent wewnętrzny, bot obsługi klienta, klasyfikacja dokumentów — CPU VPS z odpowiednią ilością RAM jest ekonomicznym i sprawdzonym rozwiązaniem. Przy skalowaniu można w każdej chwili przenieść się na GPU VPS lub oddelegować ciężkie zapytania do zewnętrznego API, zostawiając lekkie zadania na CPU.

Koszty hostowania aplikacji AI — VPS vs API

VPS do hostowania AI to stały miesięczny koszt niezależny od liczby wygenerowanych tokenów. Przy intensywnym użyciu własny serwer jest ekonomiczniejszy niż płatność za API. Orientacyjne porównanie:

VPS 8 GB RAM (orient. 60–120 zł/mies. netto) — nieograniczone wywołania lokalnego modelu
Zewnętrzne API AI — płatność za tokeny (ceny zmienne, sprawdź u dostawcy). Przy dużym wolumenie może być znacznie droższe niż self-hosted.
Dodatkowe koszty VPS: transfer danych, snapshoty, ewentualnie większy dysk na modele

Break-even zależy od wolumenu zapytań i wybranego modelu zewnętrznego. Dla projektów z dużą liczbą codziennych zapytań self-hosted często okazuje się tańszym rozwiązaniem w skali roku. Użyj kalkulatora kosztów, aby porównać plany VPS.

Bezpieczeństwo self-hosted AI na VPS

Modele językowe wystawione bez autoryzacji mogą być nadużywane przez boty lub nieuprawnione osoby. Kilka kluczowych kroków:

🔒

Nginx jako reverse proxy z autoryzacją

Port Ollamy (11434) nigdy bezpośrednio na internet — zawsze za Nginxem z Basic Auth lub tokenem Bearer. Certyfikat SSL przez Let's Encrypt dla szyfrowania połączenia.

🛡️

Firewall i ograniczenie dostępu

Firewall (ufw) blokujący wszystkie porty poza 80, 443 i SSH. Rate limiting w Nginx ogranicza liczbę zapytań z jednego IP. Jeśli model używany wewnętrznie — dostęp tylko przez VPN lub IP whitelist.

🔄

Aktualizacje i monitoring

Regularne aktualizacje systemu i Ollamy. Monitoring zużycia RAM (VPS z AI może mieć nagłe skoki przy dużych zapytaniach), logi dostępu Nginxa i alertowanie przy anomaliach. Sprawdź checklist: Bezpieczeństwo VPS →

Sprawdź oferty pasujące do tego scenariusza

Poniżej masz szybkie przejścia do ofert i stron z kodami rabatowymi tam, gdzie są dostępne.

Contabo

VPS z dużą ilością RAM w dobrej cenie — od 8 GB RAM dla self-hosted LLM

Duży RAM

Aktywuj rabat →

#Reklama · link partnerski

Zobacz kod rabatowy →

ProSerwer

VPS KVM w Polsce — niskie opóźnienie, dostęp root, Docker w standardzie

KVM Polska

Aktywuj rabat →

#Reklama · link partnerski

Zobacz kod rabatowy →

Mikrus

Tanie VPS w Polsce — dobry start do testowania aplikacji AI na CPU

VPS PL

Aktywuj rabat →

#Reklama · link partnerski

Zobacz kod rabatowy →

Często zadawane pytania

Ile RAM potrzebuje self-hosted LLM na VPS?

Llama 3 8B w GGUF Q4 potrzebuje orientacyjnie 5–8 GB RAM. Model 13B w Q4 — ok. 9–12 GB. Modele 70B+ wymagają od 40 GB RAM lub GPU. Dodaj zapas na system i bazę wektorową (1–2 GB). Praktyczne minimum: 8 GB RAM dla małego asystenta, 16 GB dla rozbudowanego systemu RAG.

Czy VPS bez GPU nadaje się do hostowania modeli AI?

Tak — mniejsze modele (do 13B w Q4/Q5) na CPU generują kilka do kilkudziesięciu tokenów/sekundę — wystarczy dla asystenta dla jednej osoby lub przetwarzania wsadowego. Wielu równoległych użytkowników w czasie rzeczywistym lub modele 30B+ — wtedy GPU VPS lub zewnętrzne API.

Jakie aplikacje AI można hostować na zwykłym VPS?

Ollama z małymi modelami, OpenWebUI, n8n z węzłami AI, boty Telegram/Discord z LLM, pipeline RAG z Chroma/Qdrant, serwer Whisper do transkrypcji, LiteLLM proxy. Wszystkie działają na CPU przy umiarkowanym ruchu.

Co to jest RAG i jak go hostować na VPS?

RAG (Retrieval-Augmented Generation) wzbogaca model o zewnętrzną wiedzę. Składniki: model embeddingów (Ollama), baza wektorowa (Chroma/Qdrant w Dockerze), model LLM i orchestrator (Langchain/AnythingLLM). Mieści się na VPS z 8–16 GB RAM.

Jak zabezpieczyć self-hosted LLM na VPS?

Nginx jako reverse proxy z Basic Auth lub JWT przed Ollamą — nigdy port 11434 na internet. Firewall ufw, certyfikat SSL Let's Encrypt, rate limiting, regularne aktualizacje systemu i Ollamy.