Modele open source w firmie – kiedy Mistral, GPT-oss i Qwen wystarczą zamiast GPT, Gemini i Claude

Krótka odpowiedź: w 2026 roku różnica jakości między topowymi modelami open source a komercyjnymi flagowcami zmalała na tyle, że dla większości zastosowań biznesowych – szczególnie RAG na własnych dokumentach – modele otwarte uruchomione w europejskiej infrastrukturze są nie tylko wystarczające, ale często bardziej praktyczne. Reszta tego wpisu pokazuje, kiedy to działa, a kiedy nadal warto sięgnąć po model komercyjny.

Dlaczego w ogóle ta dyskusja jest aktualna

Jeszcze rok temu rozmowa o open source w kontekście enterprise sprowadzała się do “fajnie, ale do produkcji bierzemy GPT”. Dziś sytuacja wygląda inaczej z trzech powodów.

Po pierwsze – jakość modeli otwartych przestała być argumentem przeciwko nim. GPT-oss-120B osiąga wyniki zbliżone do o4-mini OpenAI na benchmarkach rozumowania, a działa na pojedynczej karcie H100. Qwen3-235B plasuje się w globalnym top 5 LMArena z osiągami porównywalnymi do Gemini 2.5 Pro. Mistral Small 3.2 ma indeks inteligencji 15 w rankingu Artificial Analysis – wyraźnie powyżej średniej dla modeli swojej klasy.

Po drugie – pojawił się realny wybór europejskiej infrastruktury. Scaleway hostuje wszystkie te modele w sovereign cloud, gdzie prompty nie są logowane, dane nie wychodzą poza UE, a zgodność z RODO jest gwarantowana strukturalnie, a nie deklaracją w umowie. Dla firm z sektorów regulowanych to fundamentalna zmiana.

Po trzecie – AI Act zaczyna obowiązywać dla systemów wysokiego ryzyka od sierpnia 2026. Używanie europejskiego regionu amerykańskiego hyperscalera nie spełnia wymogów suwerenności danych ze względu na ekstraterytorialny zasięg US CLOUD Act. Ten temat przestał być teoretyczny – stał się decyzją o zgodności z prawem.

Co rzeczywiście robią te trzy modele open source

Mistral Small 3.2 – europejski model na licencji Apache 2.0, 24B parametrów, kontekst 128k tokenów. Obsługuje tekst i obraz. W praktyce to model “konia roboczego” – szybki, przewidywalny, tani. Dobrze sprawdza się w chatbotach, narzędziach wewnętrznych, automatyzacjach i właśnie w RAG na firmowych dokumentach. Po aktualizacji 3.2 znacząco poprawiono dokładność w instruction-following (z 82,75% do 84,78%) i prawie dwukrotnie zmniejszono problem nieskończonych generacji (z 2,11% do 1,29%). Nie zastąpi modeli flagowych w głębokim rozumowaniu, ale w typowych zastosowaniach biznesowych stosunek jakości do kosztu jest najmocniejszy w rodzinie Mistral.

GPT-oss-120B – pierwszy znaczący open source od OpenAI od czasu GPT-2, wydany w sierpniu 2025 na licencji Apache 2.0. To model Mixture-of-Experts: 117 miliardów parametrów łącznie, ale tylko 5,1 miliarda aktywnych przy każdym tokenie. Konsekwencja praktyczna – mieści się na jednej karcie H100, koszt deploymentu spada 3–5x w porównaniu do modeli wymagających klastrów. Obsługuje konfigurowalne poziomy rozumowania (low, medium, high), tool calling, kontekst 128k. W niezależnych testach RAG od DataRobot wariant 20B z niskim “thinking effort” konsekwentnie znajdował się na froncie Pareto – czyli model mniejszy i tańszy często wygrywa z większym i droższym. To ważna lekcja praktyczna: większy nie znaczy lepszy.

Qwen3-235B – chiński model od Alibaba Cloud, top 5 w globalnym LMArena. Mocne strony to wielojęzyczność (lepiej radzi sobie z polskim niż amerykańskie modele otwarte), niska latencja przy wysokiej efektywności tokenowej, dobre osiągi w zadaniach agentowych. Na Scaleway dostępny przez Generative APIs. Tu ważne zastrzeżenie: choć model jest open source, sama proweniencja może być argumentem przeciwko w niektórych branżach – nie wszystko da się rozstrzygnąć licencją.

Kiedy open source rzeczywiście wystarczy

Praktyka pokazuje, że dla większości zastosowań RAG w firmie odpowiedź brzmi: tak, wystarczy. Zadania, w których modele otwarte radzą sobie świetnie:

Pytania-odpowiedzi na bazie firmowych dokumentów – polityki, procedury, oferty, kontrakty. Model nie musi mieć wiedzy o świecie, musi umieć czytać podany kontekst i sensownie go cytować. To dokładnie zadanie, w którym Mistral Small 3.2 i GPT-oss radzą sobie bardzo dobrze.
Asystenci wewnętrzni dla działów – HR, prawny, sprzedaż, obsługa klienta. Specjalizacja przez retrieval, nie przez wielkość modelu.
Klasyfikacja, ekstrakcja danych, podsumowania – zadania strukturalne, w których open source zwykle dorównuje lub przewyższa modele komercyjne przy ułamku kosztu.
Chatboty zewnętrzne na stronach internetowych – tu kluczowa jest szybkość i koszt, nie subtelność rozumowania.
Procesy z wieloma etapami i tool calling – GPT-oss-120B został specjalnie zoptymalizowany pod agentowe zastosowania.

Kiedy nadal sensownie sięgać po modele komercyjne

Uczciwie – nie zawsze open source jest najlepszą odpowiedzią. Modele flagowe (GPT-5, Gemini 3, Claude Opus 4.7) wciąż wygrywają w kilku scenariuszach.

Złożone zadania programistyczne na produkcji – tu Claude Opus i GPT-5 nadal mają wyraźną przewagę w jakości generowanego kodu. Jeśli budujesz agenta piszącego kod aplikacji, nie oszczędzaj na modelu.

Bardzo długie dokumenty z wieloma zależnościami – modele komercyjne mają większe okna kontekstowe i lepiej radzą sobie z odnajdywaniem informacji w głębi długiego kontekstu.

Twórczość językowa wysokiej jakości – marketingowe copy, polerowanie tekstów, niuanse stylistyczne. Modele komercyjne nadal mają tu lepszy “smak”.

Najtrudniejsze rozumowanie matematyczne i analityczne – w zadaniach wymagających wielokrokowego, precyzyjnego rozumowania flagowce wciąż prowadzą.

Multimodalność na najwyższym poziomie – analiza złożonych obrazów, wykresów, schematów – tu Gemini i GPT-5 są lepiej dopracowane.

Argument, który często umyka – niezależność od dostawcy

Tu wracam do tego, co napisałeś o niezależności od zagranicznych dostawców. To nie jest argument ideologiczny ani polityczny. To argument operacyjny i finansowy.

Po pierwsze – kontrola nad kosztem. OpenAI, Anthropic czy Google mogą zmienić ceny, limity czy warunki dowolnie. Już to zrobili wielokrotnie. Gdy Twój produkt zależy od jednego dostawcy, jesteś jednym ogłoszeniem prasowym od kryzysu marżowego.

Po drugie – kontrola nad ciągłością. Modele są wycofywane, deprecjonowane, modyfikowane. Aplikacja, która działała świetnie na GPT-4, może zachowywać się inaczej na GPT-5. W modelu open source masz zamrożoną wersję, którą kontrolujesz.

Po trzecie – kontrola nad jurysdykcją. Dla firmy z sektora finansowego, prawnego czy publicznego pytanie “gdzie fizycznie znajdują się dane podczas inferencji” przestaje być akademickie. To pytanie audytora.

Po czwarte – możliwość fine-tuningu i specjalizacji. Modele open source można dostroić na własnych danych, włączyć w wewnętrzny pipeline, a nawet zmienić ich architekturę. Modele komercyjne dają w tym zakresie ułamek możliwości.

To nie znaczy, że trzeba odciąć się od modeli komercyjnych całkowicie. Praktyczne podejście to architektura z wieloma dostawcami – domyślnie używasz tańszego modelu open source w europejskiej infrastrukturze, a do najtrudniejszych zadań kierujesz zapytania do wybranego flagowca. Klient nie widzi różnicy, ale Ty jednego dnia możesz zmienić routing bez przepisywania aplikacji.

Praktyczne rekomendacje

Dla firm zaczynających pracę z AI na własnych danych – zacznij od Mistral Small 3.2 w europejskim cloud. Niski koszt, dobra jakość w RAG, zgodność z RODO. Jeśli przerośniesz jego możliwości, GPT-oss-120B jest naturalnym następnym krokiem.

Dla firm wdrażających Asystentów AI w organizacjach z wymaganiami compliance – GPT-oss-120B na Scaleway lub deployment on-premise. Apache 2.0, suwerenność danych, kontrola nad chain-of-thought.

Dla firm budujących produkty wielojęzyczne – Qwen3-235B warto rozważyć ze względu na osiągi językowe, ale uwzględnij ograniczenia wynikające z chińskiej proweniencji modelu w niektórych branżach.

Dla zadań z najwyższej półki jakościowej – modele komercyjne nadal mają swoje miejsce, ale powinny być wyborem celowym, a nie domyślnym.

Czego nie zrobi sam dobry model

Dobór modelu to ważna decyzja, ale nie najważniejsza. W projektach RAG, które wdrażamy w Web Amigos, jakość odpowiedzi w 80% zależy od architektury retrievalu, jakości dokumentów źródłowych i designu promptów – nie od tego, czy używasz Mistrala czy GPT-5. Firma, która ma chaos w dokumentacji, nie naprawi go najdroższym modelem na rynku. Firma, która ma uporządkowane dane i przemyślany pipeline, dostanie świetne efekty z modelu otwartego.

Otwarte modele dojrzały na tyle, że dla większości zastosowań biznesowych są domyślnym wyborem, a nie kompromisem. Pytanie nie brzmi już “czy open source da radę”, tylko “który open source i w jakiej infrastrukturze”. To dobra wiadomość – właśnie skończyła się era zakładnictwa u jednego dostawcy.

Ten wpis jest częścią serii o budowie Asystentów AI niezależnych od zagranicznych dostawców. W kolejnym wpisie pokazujemy, co naprawdę musi spełniać dostawca, żeby suwerenność danych nie była tylko deklaracją: Gdzie fizycznie znajdują się dane Twojego Asystenta AI? Praktyczny przewodnik po suwerenności AI w UE.