Модели GGUF

Выбор моделей для загрузки

Jetson Orin NX 16GB может работать с моделями до 13B (13 миллиардов параметров).
Руководство по расчёту требуемой GPU VRAM для LLM моделей.
Исчерпывающий гайд по опенсорсным языковым моделям.
Нейросети без цензуры: какие LLM ответят на любые вопросы.
Всё, что я узнал о запуске локальных языковых моделей.

GGUF, формат файла, разработанный специально для быстрой загрузки и сохранения моделей ИИ

Выбор модели сложный процесс, так как надо учесть несколько параметров:
1. репутация изготовителя файла GGUF модели (bartowski — один из самых продуктивных и уважаемых квантователей GGUF)
2. размер файла модели должен быть на 1.5 - 2 GB меньше доступной видеопамяти вашего графического процессора, так как необходимо место для контекста (–ctx-size) и буферов.
3. нет стандарта на название файлов и необязательно заполнять карточку файлов, поэтому надо внимательно искать параметры файла на его странице

На страницах моделей можно увидеть длинный список различных квантований одной и той же модели.
Если очень упрощённо, то, чем большие значение n в элементе названия nB, тем “эрудированнее” модель, и чем больше значение k в элементе названия Qk, тем больше размер GGUF-файла модели и больше требуется ресурсов процессоров и памяти для работы.

При этом нет прямой зависимости “ума” от большого значения nB, например 7B модель, “заточенная” на программирование, скорее всего, именно в программировании будет “умнее” общей модели 13B, зато последняя ответит на общий вопрос, который первая даже не знает.

Здесь есть совет, который я поддерживаю: в общем случае, лучше использовать модель с большим значением n (nB) и меньшим значением k (Qk), например, 13B Q4 лучше, чем 7B Q8.

Для оборудования типа Jetson Orin NX 16 GB лучше выбирать модели с количеством параметров от 7B до 15B (да, 15B работает нормально) и квантованием от Q4 до Q6. Чем больше nB, тем меньше Qk.

Другие обозначения в названии модели

Qwen3 — семейство моделей от Alibaba Cloud.
Coder — указание на то, что модель ориентирована на работу с кодом.
Instruct — модель, которая даёт ответ без предварительного «размышления» (без режима Thinking). Обычно отвечает быстрее Thinking моделей.

Модель общего назначения от Google

ggml-org/gemma-3-12b-it-GGUF
Одна из лучших открытых моделей с реально хорошим русским, обучалась на 140+ языках.
Поддерживает контекст 8 Кб.

Модель общего назначения от Google

unsloth/gemma-4-E2B-it-GGUF
Thinking mode даёт вдумчивые ответы, vision/audio открывают возможности, огромный контекст позволяет длинные диалоги.
Для чата, объяснений, анализа, работы с картинками/аудио — оптимум.
(Для работы с картинками/аудио требуется дополнительно файл mmproj-gemma-4-E4B-it-Q8_0.gguf)
Поддерживает контекст 131K (с mmproj) Кб.

Модель общего назначения от Alibaba

bartowski/Qwen2.5-14B-Instruct-GGUF
Сильный русский язык, отлично держит контекст разговора, хороший русский язык, хорошее качество чистого текста.
Поддерживает контекст 51 Кб.

Модель общего назначения от Meta

bartowski/Meta-Llama-3.1-8B-Instruct-GGUF
Понимает русский язык.
Поддерживает контекст 16 Кб.

Универсальная модель от Mistral AI и Nvidia

bartowski/Mistral-Nemo-Instruct-2407-GGUF
Написание, вычитка текстов и анализ кода.
Понимает русский язык.
Поддерживает контекст 32 Кб.

Модель для работы с кодом от DeepSeek

bartowski/DeepSeek-Coder-V2-Lite-Instruct-GGUF
Понимает русский язык.
Поддерживает контекст 8 Кб.
Плохой выбор для Jetson: занимает почти всю память (12+ ГиБ), оставляет лишь 8192 токен контекста на пользователя, и специализирован только на коде.

Итог

  • Gemma 4 E4B — если нужна мультимодальность (фото, голос), thinking mode, большой контекст. Отличный универсал с уникальными возможностями.
  • Qwen2.5-14B — если важны качество рассуждений, работа с кодом, MCP-инструменты. 14B параметров при Q4_K_M дают хороший результат на сложных задачах.