Все записи блога с тегом inference optimization.
Квантизация в ИИ — это метод сжатия моделей, который снижает числовую точность весов и активаций, благодаря чему нейросети работают быстрее и потребляют меньше памяти, зачастую с минимальной потерей точности.