Badania Naukowe + LLM

Bielik-Q2-Sharp

Pierwsza akademicka kwantyzacja 2-bit polskiego LLM Bielik-11B

🦅
arXiv:2603.04162 [cs.CL]
Typ
Badania naukowe
Model
Bielik-11B-v2.3-Instruct
Metody
6 kwantyzacji 2-bit
Benchmarki
22 polskie testy

Problem

Brak dostępnych 2-bit kwantyzacji dla polskich LLM. Bielik-11B zbyt duży na consumer hardware. Jedyna istniejąca opcja (SpeakLeash IQ2_XXS) nie była zoptymalizowana pod polskie benchmarki, a brak systematycznego porównania metod uniemożliwiał świadomy wybór.

Rozwiązanie

Porównanie 6 metod kwantyzacji 2-bit na budżecie $285 GPU (vast.ai). 22 polskie benchmarki, systematyczna ewaluacja. Kluczowe odkrycie: 4 różne paradygmaty kwantyzacji zbiegają się do 78.1-79.4% MC (spread 1.32pp), co sugeruje information-theoretic compression ceiling.

76.50%
accuracy — najlepszy 2-bit wynik dla polskiego LLM
$285
budżet GPU na vast.ai
arXiv
Opublikowany paper (2603.04162)

🔬 Porównywane metody

GPTQ
Post-training quantization z optymalizacją Hessiana
QuIP#
Incoherence-based quantization z E8P lattice
VPTQ
Vector post-training quantization
AQLM
Additive quantization of language models
SpinQuant
Rotation-based quantization
QTIP
Quantization with trellises and incoherence processing

🛠 Tech Stack

PyTorchGPTQQuIP#VPTQAQLM
Key Finding

4 różne paradygmaty kwantyzacji (GPTQ, QuIP#, VPTQ, QTIP) zbiegają się do zakresu 78.1-79.4% na multiple-choice benchmarkach (spread zaledwie 1.32pp). To sugeruje istnienie information-theoretic compression ceiling dla 2-bit kwantyzacji.

📄 Czytaj paper na arXiv →Współpracujesz z LLM? Porozmawiajmy →