Bielik-Q2-Sharp
Pierwsza akademicka kwantyzacja 2-bit polskiego LLM Bielik-11B
✕ Problem
Brak dostępnych 2-bit kwantyzacji dla polskich LLM. Bielik-11B zbyt duży na consumer hardware. Jedyna istniejąca opcja (SpeakLeash IQ2_XXS) nie była zoptymalizowana pod polskie benchmarki, a brak systematycznego porównania metod uniemożliwiał świadomy wybór.
✓ Rozwiązanie
Porównanie 6 metod kwantyzacji 2-bit na budżecie $285 GPU (vast.ai). 22 polskie benchmarki, systematyczna ewaluacja. Kluczowe odkrycie: 4 różne paradygmaty kwantyzacji zbiegają się do 78.1-79.4% MC (spread 1.32pp), co sugeruje information-theoretic compression ceiling.
🔬 Porównywane metody
🛠 Tech Stack
4 różne paradygmaty kwantyzacji (GPTQ, QuIP#, VPTQ, QTIP) zbiegają się do zakresu 78.1-79.4% na multiple-choice benchmarkach (spread zaledwie 1.32pp). To sugeruje istnienie information-theoretic compression ceiling dla 2-bit kwantyzacji.