На Jetson с CUDA кроме GGUF доступны и другие форматы, причём некоторые быстрее:
ExLlamaV2 (.exl2 / GPTQ) — только CUDA, на GPU часто быстрее llama.cpp, огромный выбор моделей на HuggingFace
TensorRT-LLM — нативный NVIDIA формат, максимальная производительность на Jetson, NVIDIA официально его поддерживает для Orin, но сложнее в настройке
HuggingFace Transformers (safetensors) — самый широкий выбор моделей, но без квантизации в 16GB не влезут большие модели
GGUF актуален если нужна гибкость CPU/GPU и простота, но на Jetson ExLlamaV2 может быть предпочтительнее по скорости.