Модели

Выбор моделей для загрузки

Jetson Orin NX 16GB может работать с моделями до 13B (13 миллиардов параметров).
Руководство по расчёту требуемой GPU VRAM для LLM моделей.
Исчерпывающий гайд по опенсорсным языковым моделям.
Нейросети без цензуры: какие LLM ответят на любые вопросы.
Всё, что я узнал о запуске локальных языковых моделей.

GGUF, формат фала, разработанный специально для быстрой загрузки и сохранения моделей ИИ

Выбор модели сложный процесс, так как надо учесть несколько параметров:
1. репутация изготовителя файла GGUF модели (bartowski — один из самых продуктивных и уважаемых квантователей GGUF)
2. размер файла модели должен быть на 1.5 - 2 GB меньше доступной видеопамяти вашего графического процессора, так как необходимо место для контекста (–ctx-size) и буферов.
3. нет стандарта на название файлов и необязательно заполнять карточку файлов, поэтому надо внимательно искать параметры файла на его странице

На страницах моделей можно увидеть длинный список различных квантований одной и той же модели.
Если очень упрощённо, то, чем болшие значение n в элементе названия nB, тем “эрудированнее” модель, и чем больше значение k в элементе названия Qk, тем больше размер GGUF-файла модели и больше требуется ресурсов процессоров и памяти для работы.

При этом нет прямой зависимости “ума” от большого значения nB, например 7B модель, “заточенная” на программирование, скорее всего, именно в программировании будет “умнее” общей модели 13B, зато последняя ответит на общий вопрос, который первая даже не знает.

Здесь есть совет, который я поддерживаю: в общем случае, лучше использовать модель с большим значением n (nB) и меньшим значением k (Qk), например, 13B Q4 лучше, чем 7B Q8.

Для оборудования типа Jetson Orin NX 16 GB лучше выбирать модели с количеством параметров от 7B до 15B (да, 15B работает нормально) и квантованием от Q4 до Q6. Чем больше nB, тем меньше Qk.

Модель общего назначения от Meta

bartowski/Meta-Llama-3.1-8B-Instruct-GGUF
Понимает русский язык.
Поддерживает контекст 16 Кб.

Универсальная модель от Mistral AI и Nvidia

bartowski/Mistral-Nemo-Instruct-2407-GGUF
Написание, вычитка текстов и анализ кода.
Понимает русский язык.
Поддерживает контекст 32 Кб.

Модель для работы с кодом от DeepSeek

bartowski/DeepSeek-Coder-V2-Lite-Instruct-GGUF
Понимает русский язык.
Поддерживает контекст 8 Кб.