← Powrót do strony głównej VEES Scenariusze

Katalog 48 układów topologii

Co tu jest: 32 układy z systematycznej analizy topologii (rodziny A-D), 4 nowe świeże projekty (rodzina E) i 12 układów hybrydowych dom plus chmura (rodzina F), które miksują modele z trzech źródeł: lokalny Krupster, druga maszyna Mustang i premium chmura OpenRouter. Z tego 25 jest uruchamialnych na obecnym silniku i mierzonych na żywo, a 23 to projekty, które wymagają rozszerzenia silnika (debaty, turnieje, routing, multimodalność, warstwa stanu). Pomiary lecą sekwencyjnie i ranking rośnie na bieżąco.

Projekty pokazujemy uczciwie: z diagramem przepływu i pełnym opisem, ale jeszcze nie mierzone. Każdy układ ma własny graf połączeń modeli i sześć pól wyjaśniających strukturę, dobór modeli, spodziewany efekt, ryzyka i zadania. Zero zmyślonych liczb - wyniki dochodzą z benchmarku.

Enginetric · projekt w testach 48 układów 13 mierzonych / 23 projekty
Jak czytać ten katalog

Cztery rodziny z analizy plus świeże projekty

Rodziny A-D to systematyczny przegląd przestrzeni topologii: zespoły i głosowanie (A), weryfikacja i anty-halucynacja (B), routing i hybryda lokalne/chmura (C) oraz układy domenowe, multimodalne i naukowe (D). Rodzina E to cztery zupełnie nowe pomysły zaprojektowane od zera. Zielona plakietka oznacza, że układ liczy się teraz na Krupsterze; bursztynowa, że to projekt poza możliwościami obecnego silnika - opisany rzetelnie, ale jeszcze nie zmierzony.

Ranking

Mierzone układy od najlepszego do najgorszego

Co tu widzisz: tabelę wyników układów uruchamialnych na obecnym silniku - który daje odpowiedź, której można najbardziej zaufać. Im wyżej, tym pewniej. Ranking rośnie na żywo, w miarę jak Krupster domyka kolejne przebiegi.

Kolumny: C to correctness (poprawność), H to udział halucynacji, V to wariancja między ziarnami, Latencja i TOKENY (K) to realny koszt przebiegu. SCORE = correctness - 0,6 x halucynacje - 0,2 x wariancja - koszt, jako średnia z wielu przebiegów (N >= 3 na przypadek).

Wczytuję ranking

Pobieram ranking2.json z benchmarku...

Jak czytać tokeny
Kolumna TOKENY (K)

Licznik K to realne tokeny zliczane z silnika, nie szacunek. Sumujemy prompt_eval_count (tokeny wejścia, czyli prompt) oraz eval_count (tokeny generacji) z odpowiedzi ollamy, po każdym modelu i etapie, w całym przebiegu układu. Dzięki temu koszt w tokenach jest twardo zmierzony tak samo jak poprawność - jedna liczba opisuje, ile realnie kosztuje jedno przejście danej topologii.

Wczytuję układy

Pobieram katalog z scenarios2.json i rysuję grafy przepływu...