Badania Naukowe + LLM

Bielik-Q2-Sharp

Pierwsza akademicka kwantyzacja 2-bit polskiego LLM Bielik-11B

🦅

arXiv:2603.04162 [cs.CL]

Typ

Badania naukowe

Model

Bielik-11B-v2.3-Instruct

Metody

6 kwantyzacji 2-bit

Benchmarki

22 polskie testy

✕ Problem

Brak dostępnych 2-bit kwantyzacji dla polskich LLM. Bielik-11B zbyt duży na consumer hardware. Jedyna istniejąca opcja (SpeakLeash IQ2_XXS) nie była zoptymalizowana pod polskie benchmarki, a brak systematycznego porównania metod uniemożliwiał świadomy wybór.

✓ Rozwiązanie

Porównanie 6 metod kwantyzacji 2-bit na budżecie $285 GPU (vast.ai). 22 polskie benchmarki, systematyczna ewaluacja. Kluczowe odkrycie: 4 różne paradygmaty kwantyzacji zbiegają się do 78.1-79.4% MC (spread 1.32pp), co sugeruje information-theoretic compression ceiling.

76.50%

accuracy — najlepszy 2-bit wynik dla polskiego LLM

$285

budżet GPU na vast.ai

arXiv

Opublikowany paper (2603.04162)

🔬 Porównywane metody

GPTQ

Post-training quantization z optymalizacją Hessiana

QuIP#

Incoherence-based quantization z E8P lattice

VPTQ

Vector post-training quantization

AQLM

Additive quantization of language models

SpinQuant

Rotation-based quantization

QTIP

Quantization with trellises and incoherence processing

🛠 Tech Stack

PyTorchGPTQQuIP#VPTQAQLM

Key Finding

4 różne paradygmaty kwantyzacji (GPTQ, QuIP#, VPTQ, QTIP) zbiegają się do zakresu 78.1-79.4% na multiple-choice benchmarkach (spread zaledwie 1.32pp). To sugeruje istnienie information-theoretic compression ceiling dla 2-bit kwantyzacji.

📄 Czytaj paper na arXiv →Współpracujesz z LLM? Porozmawiajmy →