VEES to wyspecjalizowane środowisko AI dla inżynierii, które w swojej dziedzinie jest pewniejsze niż asystent ogólnego przeznaczenia. To żywy, mierzony katalog układów: wiele modeli pracuje równolegle, silnik LICZY wynik deterministycznym solverem, a AI go ubiera. Miks mocy lokalnej i chmury, na wyjściu jedna odpowiedź, której można zaufać.
Pojedynczy model AI potrafi dać różne odpowiedzi przy drobnej zmianie pytania. VEES rozwiązuje to inaczej: pyta wiele modeli naraz, sprawdza ich odpowiedzi prawdziwym obliczeniem i składa z tego jedną, pewną odpowiedź.
Pytanie trafia nie do jednego modelu, lecz do wielu modeli pracujących równolegle. Każdy podchodzi do problemu inaczej, więc słabe i przypadkowe odpowiedzi szybko się ujawniają.
VEES zestawia propozycje modeli i sprawdza je deterministycznym solverem oraz normami ze źródła. Liczby liczy silnik obliczeniowy, a nie zgaduje model. To odcina halucynacje.
Na wyjściu dostajesz jedną, zweryfikowaną odpowiedź wraz z dowodem walidacji, czym dokładnie została policzona. Nie kilka sprzecznych wariantów do oceny, lecz wynik, któremu można zaufać.
VEES jest pomyślane dla profesjonalisty, który podejmuje decyzje na podstawie wyników i nie może pozwolić sobie na zgadywanie. Każdy układ spinający modele jest mierzony na żywo, a nie deklarowany. Dziś pierwszym obszarem jest wiertnictwo i przewierty HDD; docelowo to ogólnoinżynierski ekspert w walizce.
Pytanie wchodzi z zewnątrz, orkiestrator rozdziela je między drafterów, deterministyczny solver liczy prawdę, weryfikatorzy sprawdzają, a synteza odsyła odpowiedź z dowodem walidacji - cała maszyneria zamknięta w jednej maszynie.
VEES to nie czat z modelem. To zamknięty, suwerenny silnik ekspercki: na jednej maszynie żyje orkiestrator klasy Kimi (replikacja Abiego), a pod nim rój modeli roboczych. Orkiestrator rozkłada zadanie, rozdziela je w roju, a prawdę bierze z deterministycznego solvera i ze źródeł - nie z „pamięci" modelu.
Orkiestrator definiuje zadanie → rój modeli rozumuje równolegle → solver liczy → weryfikator powtarza obliczenie → strażnik wyrzuca każdą liczbę bez pokrycia. Na wyjściu: odpowiedź eksperta z pełnym dowodem walidacji, czym dokładnie została policzona. Całość w jednej obudowie - model klienta nie opuszcza jego maszyny.
To przewaga Enginetrica trudna do skopiowania: anty-halucynacja jako cecha produktu klasy Enterprise. Audytowalność i suwerenność, których natywne modele językowe nie dają.
Od warstwy rozumowania, przez rój modeli, po osadzenie w prawdzie. Rdzeń stoi lokalnie, a układy hybrydowe miksują moc z trzech źródeł: Krupstera, drugiej maszyny Mustang i premium chmury.
Każda konfiguracja to inny sposób spięcia modeli i narzędzi. To wycinek pełnego katalogu 48 układów - testujemy je po kolei i mierzymy, czy realnie podnoszą jakość, czy tylko spalają moc.
Drafter → weryfikator → strażnik na jednym modelu (qwen3.6:35b-a3b) - trzy system-prompty, łańcuch szeregowy. Strażnik realnie koryguje draft.
RdzeńN drafterów liczy niezależnie, bierzemy medianę liczb. Tłumi pojedyncze wpadki - ale nie naprawia błędu wspólnego dla wszystkich.
GłosowanieRole przełączone na programistyczne (autor → reviewer → integrator), głosowanie wyłączone. Produkuje kompletny, uruchamialny kod - nie urywki.
Zweryfikowany ✓Rój nie zgaduje fizyki - woła deterministyczny solver Rust: frac-out, hydraulika, balastowanie, dopasowania reologiczne. Każdy wynik z dowodem walidacji.
Działa ✓Każda norma/wartość tablicowa cytowana ze źródła z korpusu, zamiast „pamięci" modelu. Następny element osadzenia.
W budowieMocniejszy sprzęt → więcej instancji → warstwy równoległe biegną naprawdę równolegle, orkiestrator rozdziela zadania na wolne modele.
RoadmapJednostka mocy to jeden Blackwell - 96 GB pamięci karty (nasz dzisiejszy węzeł). Im więcej kart, tym więcej różnych rodzin modeli pracuje NAPRAWDĘ równolegle i tym większy orkiestrator stać nas utrzymać na własnym sprzęcie, bez chmury. Trzy rozwiązania teoretyczne - poprawność na każdym z nich pilnuje ten sam solver.
Solista osadzony. Jeden mocny model (qwen3.6:35b-a3b) niesie cały łańcuch, różnorodność dokładają 1-2 mniejsze rodziny, a poprawność dźwiga solver.
Dowód: solista + solver = 0,945 na inżynierii HDD - parytet z całym panelem. Suwerennie i tanio na jednej karcie.
Zmierzone ✓Rada heterogeniczna. Rój rozbity po rolach na dwie karty: drafterzy i synteza na jednej, trzy soczewki weryfikacji (Gemma + Mistral + Phi) na drugiej.
Zysk: panel weryfikatorów biegnie realnie równolegle, różne rodziny naraz - lekarstwo na skorelowane błędy. To pełny rada-solver na sprzęcie.
ProjektVEES pełny. Stać nas na duży orkiestrator klasy Kimi na WŁASNYM węźle (NVFP4) + osobna pamięć na drafterów i weryfikatorów + router + obsługa wielu zapytań naraz.
Zysk: koniec zależności od chmury, dane nie wychodzą z maszyny. Docelowe „jedna maszyna, zamknięte modele, jeden orkiestrator".
CelZasada wspólna Na każdym poziomie silnik LICZY, AI ubiera - liczby zawsze z solvera, nigdy z „pamięci" modelu. Przepustowość i jakość NVFP4 to teoria do zmierzenia baterią, nie obietnica.
Twarde liczby z pomiaru, nie z karty katalogowej. Lokalne mierzone na naszym Blackwellu (96 GB), chmurowe jako efektywny tok/s od pytania do odpowiedzi. Najważniejsza lekcja: o szybkości decyduje nie „klasa modelu", tylko czy wagi siedzą w pamięci karty, czy spadają do RAM.
| Model lokalny (Blackwell) | tok/s | status |
|---|---|---|
| qwen3.6:35b-a3b MoE | ~205 | zmierzone ✓ |
| gemma4:26b-a4b MoE | ~184 | zmierzone ✓ |
| gemma4:31b dense | ~43 | zmierzone ✓ |
| deepseek-v4-flash 284B, 151 GB | ~13,5 | offload do RAM |
| Model chmurowy (OpenRouter) | tok/s | uwaga |
|---|---|---|
| MiniMax-M2 | ~54 | najszybszy |
| Qwen3-235B thinking | ~52 | - |
| GLM-4.7 | ~39 | najwyższa jakość |
| Kimi-K2 thinking | ~38 | - |
| DeepSeek-V3.2 | ~35 | - |
Lekcja deepseek-v4-flash (284 mld parametrów, 151 GB) nie mieści się w 96 GB karty - 55 GB liczy się z RAM, stąd ~13,5 tok/s zamiast setek. Pełną prędkość osiąga dopiero drugi Blackwell (192 GB w pamięci karty). Chmura: liczy się jakość na token, nie surowa szybkość - GLM-4.7 jest wolniejszy efektywnie od MiniMaxa, a wygrał. Efektywny tok/s zawiera narzut sieci i rozumowania; część modeli lokalnych jeszcze mierzymy.
Topologia to konkretny pomysł na to, który model rozmawia z którym i po co. Z czterech wczesnych koncepcji urósł żywy katalog 48 układów ułożonych w 6 rodzin (A-F). 25 z nich jest uruchamialnych i mierzonych na żywo na tej samej baterii pytań, pozostałe 23 to projekty na desce kreślarskiej. Compute czerpiemy z trzech źródeł: lokalny Krupster, druga maszyna Mustang i premium chmura OpenRouter. Wybieramy układ najlepszy pod HDDSuite - ten, który najpewniej łapie błąd i najmocniej kotwiczy się w prawdzie solvera.
Pomysł: kilka modeli z różnych rodzin rozwiązuje niezależnie, a głosowanie i synteza składają wspólną odpowiedź. Różnorodność rodzin rozbija skorelowane błędy.
Przedstawiciel: A1 Panel większościowy z kotwicą solvera - C 1,00. Solver odcina liczby bez pokrycia.
2 z 8 mierzone na żywoPomysł: najpierw policz solverem, dopiero potem model ubiera gotowe liczby - halucynacja liczbowa eliminowana u źródła. Łańcuchy weryfikatorów o różnych soczewkach (jednostki, fizyka, wzór).
Przedstawiciel: B1 Solver-First Gate - uziemienie deterministyczne przed generacją.
3 z 8 mierzone na żywoPomysł: lekki router klasyfikuje trudność pytania i kieruje je do jednego wykonawcy - tani lokalny dla łatwych, mocny lokalny dla średnich, chmura dla trudnych. Hybryda lokalne/chmura.
Przedstawiciel: C1 Sovereign Router - jednoskokowa alokacja. Najbardziej w duchu VEES.
8 projektówPomysł: układy szyte pod konkretną dziedzinę i dane - retrieval uziemia, solver liczy, model ubiera w polszczyznę, audytor sprawdza liczba po liczbie. Także multimodalne.
Przedstawiciel: D1 RAG-grounded ekspert reologiczny.
4 z 8 mierzone na żywoPomysł: świeże pomysły wchodzące do testów - m.in. coder jako weryfikator sprawdzający sam wzór symbolicznie, obok jednostek i fizyki.
Przedstawiciel: NEW2 Strażnik wzoru.
4 z 4 mierzone na żywoPomysł: miks modeli z Krupstera i Mustanga z premium chmurą - ciężka praca zostaje lokalnie, a chmura podnosi sufit jakości finału kosztem pojedynczych wywołań OpenRouter.
Przedstawiciel: F3 Dwa ciała lokalne + chmurowy arbiter - C 1,00; F1 Lokalny panel + premium synteza - C 0,88.
12 z 12 mierzone na żywoŻywy katalog Każdy z 48 układów ma własną kartę, schemat spięcia i - jeśli jest uruchamialny - świeży wynik z baterii. Pełny katalog z miarami na żywo: podstrona Scenariusze.
To nie statyczna narracja, tylko żywe laboratorium. Mierzymy katalog 48 układów w 6 rodzinach (A-F) - z rodziną F łączącą dom (Krupster, Mustang) i chmurę. Realne wyniki aktualizujemy na bieżąco: dziesiątki zmierzonych topologii i setki przebiegów, metryki zgody, halucynacji, weryfikacji oraz latencji i tokenów dla każdego modelu. Nie „wydaje się" - zmierzone.
O wyniku decyduje nie liczba modeli, lecz prawda spoza modelu i dobór topologii. Osadzenie w solverze podnosi C z 0,69 (goły model) do ~0,95 (solver najpierw).
Przy generacji kodu z dobrą specyfikacją drafter ma mniej miejsca na konfabulację, a reviewer łapie realne bugi. Tor kodowy jest mocny tam, gdzie zadanie jest jednoznaczne - i tam ma odciążać. Doborem topologii dla całej reszty zajmuje się mierzony katalog 48 układów.
VEES jest w testach. Ta strona aktualizuje się przy każdym kroku: nowa konfiguracja, nowy benchmark, nowy werdykt - dobra koncepcja czy ślepa uliczka. Bez upiększania, z liczbami. Pełny, żywy katalog mierzonych układów - 48 konfiguracji w sześciu rodzinach - jest na podstronie Scenariusze.
Sześć rodzin A-F, część uruchamialna i mierzona, część projektowa. Rodzina F to hybryda dom + chmura, która miksuje trzy źródła obliczeń: Krupster, Mustang i OpenRouter. Wszystko widać w Scenariuszach.