تقنية • 3 يونيو 2026 • • —

Tiny-vLLM: دليل عملي لتشغيل محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

📑 محتويات المقال

Reference OS v85 دقائق قراءة٣ يونيو ٢٠٢٦informational + فهم أداة تقنية جديدة وتقييم فائدتها وطريقة تجربتها

Tiny-vLLM: دليل عملي لتشغيل محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

بعد قراءة هذا الدليل، ستتمكن من تثبيت وتشغيل Tiny-vLLM على جهازك مع GPU NVIDIA، وحل المشكلات الشائعة، وتقييم ما إذا كان مناسبًا لحالتك.

الخلاصة: Tiny-vLLM محرك استدلال LLM بلغة C++/CUDA، يتطلب GPU NVIDIA مع VRAM ≥8GB، مناسب للتجربة المحلية لكنه غير جاهز للإنتاج. التركيب عبر cmake، والأداء متوقع عالٍ مقارنة بـ llama.cpp.

Tiny-vLLM دليل عملي727 كلمة تقريباًزارو — مكتبة الأدلة العملية

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟
من يحتاج Tiny-vLLM؟ ومن لا؟
المميزات الرئيسية
المتطلبات الأساسية
خطوات التركيب التفصيلية
شرح ملف الإعدادات والمتغيرات البيئية
تشغيل Tiny-vLLM: تحميل نموذج وتنفيذ استدلال
الأخطاء الشائعة وحلولها
استخدامات عملية
هل يستحق التجربة؟
بدائل Tiny-vLLM
الأسئلة الشائعة

قبل أن تطبق

الفكرة التي تمنع التسرع

تعتقد أن مشاريع GitHub الجديدة لا تصلح إلا للمطورين المتقدمين؟ Tiny-vLLM يثبت العكس: README واضح، كود منظم، ويمكن لأي مطور متوسط تجربته.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل لديك GPU NVIDIA مع VRAM 8GB على الأقل؟
هل نظام التشغيل Linux (Ubuntu 22.04+)؟
هل أنت مرتاح في استخدام سطر الأوامر و cmake؟
هل تبحث عن أداء عالٍ في استدلال LLM محليًا؟
هل أنت مستعد لمواجهة أخطاء محتملة في مشروع حديث؟
هل جربت llama.cpp أو vLLM من قبل؟
هل لديك خبرة في CUDA و C++؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج LLM مدرب مسبقاً بصيغة Hugging Face أو GGUF، مع نص استعلام (prompt).

PROCESS

يستخدم Tiny-vLLM C++ وCUDA لتحميل النموذج على GPU، وتنفيذ الاستدلال بكفاءة عالية عبر تحسينات مثل kernel fusion وquantization.

OUTPUT

نص مولد (completion) أو logits حسب الوضع.

Decision Layer

اختيار نموذج مناسب (حجم النموذج يتناسب مع VRAM المتوفرة)، وضبط معاملات الاستدلال (temperature, top_p).

Memory Layer

إدارة الذاكرة عبر CUDA memory pool، مع إمكانية تفريغ النموذج جزئياً عند الحاجة.

Feedback Loop

يمكن تعديل المعاملات وإعادة التشغيل للحصول على نتائج أفضل، أو تغيير النموذج بالكامل.

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
زمن الاستدلال (ms لكل رمز)	استخدم time command أو سجلات المحرك	أقل من 50ms لكل رمز لنموذج صغير
استهلاك VRAM (GB)	nvidia-smi أثناء التشغيل	أقل من 80% من VRAM المتاح
نجاح التثبيت	اكتمال make بدون أخطاء	بناء ناجح

Tiny-vLLM هو محرك استدلال لنماذج اللغة الكبيرة (LLM) مكتوب بلغة C++ مع تسريع CUDA، ظهر مؤخراً على Hacker News وحظي باهتمام المجتمع التقني. يهدف المشروع إلى تقديم أداء عالٍ في استدلال النماذج مع استهلاك منخفض للذاكرة، مما يجعله خياراً جذاباً للمطورين الذين يرغبون في تشغيل LLM محلياً دون الحاجة إلى بنية تحتية ضخمة.

في هذا الدليل العملي، سنشرح لك كيفية تركيب Tiny-vLLM على جهازك، تشغيله، وحل المشكلات الشائعة. سنقارنه أيضاً بالبدائل المعروفة مثل llama.cpp وvLLM، ونساعدك على تحديد ما إذا كان مناسباً لحالتك.

ما هو Tiny-vLLM؟

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة، مكتوب بلغة C++ مع دعم CUDA لتسريع الأداء على وحدات معالجة الرسوميات NVIDIA. الاسم يلمح إلى كونه نسخة 'مصغرة' من vLLM، لكنه ليس forkاً رسمياً. المشروع جديد نسبياً (ظهر على Hacker News في 2025)، ويهدف إلى توفير بديل خفيف وسريع للمحركات الأخرى.

من يحتاج Tiny-vLLM؟ ومن لا؟

يناسب: المطورين الذين لديهم GPU NVIDIA (VRAM 8GB فأكثر)، ويبحثون عن أداء عالٍ في استدلال LLM محلياً، ويريدون تجربة محرك جديد مفتوح المصدر. أيضاً مناسب للباحثين والمهتمين بتجربة النماذج دون الاعتماد على الخدمات السحابية.

لا يناسب: المبتدئين الذين ليس لديهم خبرة في C++ أو CUDA، أو من يملكون أجهزة بدون GPU NVIDIA (مثل AMD أو Apple Silicon). أيضاً غير مناسب للإنتاج بعد، لأنه مشروع حديث قد يحتوي على أخطاء.

المميزات الرئيسية

أداء عالٍ بفضل C++ وCUDA.
استهلاك منخفض للذاكرة مقارنة بـ vLLM.
مفتوح المصدر (رخصة غير محددة حالياً).
يدعم نماذج Hugging Face (حسب الإعلان).
سهولة التركيب نسبياً (cmake).

المتطلبات الأساسية

نظام تشغيل: Linux (اختبار على Ubuntu 22.04).
GPU NVIDIA مع CUDA 11.8 أو أحدث.
VRAM: 8GB على الأقل للنماذج الصغيرة (مثل GPT-2).
مكتبات: CMake ≥ 3.20، GCC ≥ 11، CUDA Toolkit.
Python 3.10+ (لبعض أدوات التحويل).

خطوات التركيب التفصيلية

ملاحظة: README المشروع غير واضح تماماً، الخطوات التالية تقريبية بناءً على بنية المشروع.

استنساخ المستودع: git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm
إنشاء مجلد البناء: mkdir build && cd build
تشغيل CMake: cmake .. -DCMAKE_BUILD_TYPE=Release
بناء المشروع: make -j$(nproc)
تثبيت التبعيات (إن وجدت): pip install -r ../requirements.txt (إذا كان الملف موجوداً).

شرح ملف الإعدادات والمتغيرات البيئية

حتى الآن، لا يوجد ملف .env في المشروع. قد يتم تمرير الإعدادات عبر وسائط سطر الأوامر أو ملفات تكوين YAML/JSON في المستقبل. حالياً، يتم تحديد النموذج ومساراته مباشرة في الأمر.

تشغيل Tiny-vLLM: تحميل نموذج وتنفيذ استدلال

بعد البناء، يمكن تشغيل المحرك باستخدام أمر مثل:

./tiny-vllm --model /path/to/model --prompt "مرحبا بالعالم"

يفترض أن النموذج بصيغة Hugging Face (مجلد يحتوي على config.json وmodel.safetensors). لتجربة سريعة، يمكن استخدام نموذج gpt2 (صغير الحجم).

الأخطاء الشائعة وحلولها

الخطأ	السبب	الحل
CUDA error: out of memory	النموذج أكبر من VRAM	استخدم نموذجاً أصغر أو قلل batch size
fatal error: cuda_runtime.h: No such file	CUDA Toolkit غير مثبت	ثبت CUDA Toolkit 11.8+
undefined reference to ...	مكتبات مفقودة	تأكد من تثبيت جميع التبعيات

استخدامات عملية

تشغيل chatbot محلي: استخدم Tiny-vLLM مع واجهة بسيطة (مثل Flask) لإنشاء مساعد ذكي.
توليد نصوص: استخدمه لإنشاء محتوى تلقائي (مثل وصف منتجات).
تحليل نصوص: يمكن استخدامه لاستخراج المعلومات أو التلخيص.

هل يستحق التجربة؟

نعم، إذا كنت تملك GPU NVIDIA وترغب في تجربة محرك جديد بأداء عالٍ. لكن لا تتوقع استقراراً كاملاً، فالمشروع في مراحله الأولى. قارن أداءه مع llama.cpp على نفس النموذج لترى الفرق.

بدائل Tiny-vLLM

المحرك	اللغة	الأداء	سهولة الاستخدام	الإنتاجية
Tiny-vLLM	C++/CUDA	عالٍ (متوقع)	متوسطة	منخفضة
llama.cpp	C++	متوسط	عالية	عالية
vLLM	Python/C++	عالٍ جداً	عالية	عالية جداً

الأسئلة الشائعة

هل Tiny-vLLM يدعم جميع نماذج LLM؟

حالياً، يدعم نماذج Hugging Face، لكن ليس كلها. راجع ملفات النماذج المدعومة في المستودع.

ما هي متطلبات الأجهزة لتشغيل Tiny-vLLM؟

GPU NVIDIA مع VRAM ≥ 8GB، وذاكرة RAM ≥ 16GB.

كيف أحل مشكلة 'CUDA out of memory'؟

استخدم نموذجاً أصغر، أو قلل طول الإدخال، أو استخدم quantization.

هل يمكن تشغيل Tiny-vLLM على Windows؟

غير مدعوم رسمياً، لكن قد يعمل عبر WSL2.

ما الفرق بين Tiny-vLLM وvLLM؟

Tiny-vLLM أصغر حجماً وأقل ميزات، لكنه قد يكون أسرع في بعض الحالات.

هل Tiny-vLLM مناسب للإنتاج؟

لا، المشروع تجريبي وغير مستقر بعد.

كيف أحدث Tiny-vLLM إلى الإصدار الأحدث؟

اسحب آخر التغييرات من المستودع وأعد البناء: git pull && cd build && cmake .. && make

هل يدعم Tiny-vLLM الاستدلال متعدد الخيوط؟

غير موثق، لكن CUDA يستخدم نوى GPU متعددة.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

تثبيت المتطلبات الأساسية

لماذا؟ بدونها لن يعمل المشروع

كيف؟ تثبيت CMake ≥3.20، GCC ≥11، CUDA Toolkit 11.8+، Python 3.10+

الناتج: بيئة جاهزة للبناء

خطوة 2

استنساخ المستودع وبناء المشروع

لماذا؟ للحصول على الملفات القابلة للتنفيذ

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm && mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc)

الناتج: ملف تنفيذي tiny-vllm في مجلد build

خطوة 3

تحميل نموذج صغير (مثل gpt2)

لماذا؟ لاختبار المحرك دون استهلاك ذاكرة كبير

كيف؟ استخدم مكتبة transformers لتحميل النموذج وحفظه في مجلد: from transformers import AutoModel; model = AutoModel.from_pretrained('gpt2'); model.save_pretrained('./gpt2')

الناتج: مجلد نموذج جاهز

خطوة 4

تشغيل الاستدلال الأول

لماذا؟ للتحقق من عمل المحرك

كيف؟ ./tiny-vllm --model ./gpt2 --prompt "Hello, world"

الناتج: نص مولد من النموذج

خطوة 5

حل مشكلة CUDA out of memory

لماذا؟ خطأ شائع عند استخدام نماذج أكبر

كيف؟ استخدم نموذجًا أصغر، أو قلل طول الإدخال، أو استخدم quantization إذا كان مدعومًا

الناتج: تشغيل ناجح

خطوة 6

مقارنة الأداء مع llama.cpp

لماذا؟ لتقييم ما إذا كان Tiny-vLLM أفضل لحالتك

كيف؟ شغل نفس النموذج على كلا المحركين وقارن زمن الاستدلال واستهلاك الذاكرة

الناتج: بيانات مقارنة

خطوة 7

تحديث المشروع إلى أحدث إصدار

لماذا؟ للحصول على التحسينات وإصلاحات الأخطاء

كيف؟ git pull && cd build && cmake .. && make

الناتج: إصدار محدث

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

أمر تشغيل أساسي

./tiny-vllm --model /path/to/model --prompt "نص الإدخال"

أمر بناء مع خيارات

cmake .. -DCMAKE_BUILD_TYPE=Release -DCUDA_ARCH=sm_86 && make -j$(nproc)

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
CUDA error: out of memory	النموذج أكبر من VRAM المتاح	استخدم نموذجًا أصغر أو قلل batch size أو استخدم quantization
fatal error: cuda_runtime.h: No such file	CUDA Toolkit غير مثبت أو غير مضبوط في PATH	ثبت CUDA Toolkit 11.8+ وتأكد من وجوده في PATH
undefined reference to ...	مكتبات مفقودة (مثل libcuda)	تأكد من تثبيت جميع التبعيات: sudo apt install build-essential cmake libcudart11.8

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU NVIDIA مع VRAM ≥8GB

إذن: إذن يمكنك تجربة Tiny-vLLM

إذا: إذا كنت مبتدئًا في C++/CUDA

إذن: إذن قد تواجه صعوبات، ابدأ بـ llama.cpp الأسهل

إذا: إذا كنت بحاجة إلى إنتاجية واستقرار

إذن: إذن استخدم vLLM أو llama.cpp بدلاً من ذلك

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تثبيت المتطلبات واستنساخ المستودع
اليوم 2: بناء المشروع وحل أخطاء التثبيت
اليوم 3: تحميل نموذج صغير وتشغيل أول استدلال
اليوم 4: اختبار نماذج مختلفة وتسجيل الأداء
اليوم 5: مقارنة مع llama.cpp على نفس النموذج
اليوم 6: بناء واجهة بسيطة (مثل Flask) للتفاعل
اليوم 7: توثيق التجربة ومشاركة النتائج

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Tiny-vLLM مكتوب بلغة C++ مع CUDA.

2. يتطلب GPU NVIDIA مع VRAM ≥8GB.

3. المشروع جديد (2025) وغير جاهز للإنتاج.

4. يدعم نماذج Hugging Face (غير كلها).

5. التركيب عبر cmake و make.

6. أداء متوقع عالٍ مقارنة بـ llama.cpp.

7. لا يدعم Windows رسميًا (قد يعمل عبر WSL2).

8. المشروع مفتوح المصدر برخصة غير محددة.

9. يمكن تحديثه عبر git pull وإعادة البناء.

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل Tiny-vLLM يدعم جميع نماذج LLM؟

حاليًا يدعم نماذج Hugging Face، لكن ليس كلها. راجع ملفات النماذج المدعومة في المستودع.

ما هي متطلبات الأجهزة لتشغيل Tiny-vLLM؟

GPU NVIDIA مع VRAM ≥8GB، وذاكرة RAM ≥16GB، ونظام Linux.

كيف أحل مشكلة 'CUDA out of memory'؟

استخدم نموذجًا أصغر، أو قلل طول الإدخال، أو استخدم quantization إذا كان مدعومًا.

هل يمكن تشغيل Tiny-vLLM على Windows؟

غير مدعوم رسميًا، لكن قد يعمل عبر WSL2.

ما الفرق بين Tiny-vLLM وvLLM؟

Tiny-vLLM أصغر حجماً وأقل ميزات، لكنه قد يكون أسرع في بعض الحالات.

هل Tiny-vLLM مناسب للإنتاج؟

لا، المشروع تجريبي وغير مستقر بعد.

كيف أحدث Tiny-vLLM إلى الإصدار الأحدث؟

اسحب آخر التغييرات من المستودع وأعد البناء: git pull && cd build && cmake .. && make

هل يدعم Tiny-vLLM الاستدلال متعدد الخيوط؟

غير موثق، لكن CUDA يستخدم نوى GPU متعددة.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

محرك استدلال (Inference Engine)

برنامج يقوم بتشغيل نموذج ذكاء اصطناعي لإنتاج مخرجات من مدخلات.

CUDA

منصة حوسبة متوازية من NVIDIA لتسريع العمليات على GPU.

VRAM

ذاكرة الوصول العشوائي للبطاقة الرسومية، تحدد حجم النموذج الذي يمكن تشغيله.

Quantization

تقنية تقليل دقة الأوزان لتقليل استهلاك الذاكرة وزيادة السرعة.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

كيفية تثبيت Tiny-vLLM على Ubuntuمقارنة Tiny-vLLM vs llama.cppأفضل محرك استدلال LLM محليحل مشكلة CUDA out of memory في Tiny-vLLMنماذج متوافقة مع Tiny-vLLMتشغيل Tiny-vLLM على Windows عبر WSL2تحديث Tiny-vLLM إلى آخر إصدار

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من مطور يتردد في تجربة مشاريع GitHub الجديدة إلى ممارس واثق قادر على تركيب وتشغيل Tiny-vLLM وتقييم أدائه.

تحسين أداء GPU في Linux
إدارة ذاكرة CUDA
بناء تطبيقات chatbot باستخدام LLM

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لمطوري LLM الذين يمتلكون GPU NVIDIA. رغم حداثته، إلا أنه يقدم أداءً جيداً وسهولة تركيب نسبية. جربه على نموذج صغير أولاً، وقارن النتائج مع llama.cpp. تذكر أن المشروع تجريبي، لذا لا تعتمد عليه في الإنتاج بعد. إذا أعجبك، ساهم في تطويره عبر GitHub.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المستودع أسبوعيًا (git pull).
أعد بناء المشروع بعد كل تحديث.
تابع مناقشات Hacker News للمشروع.
اختبر النماذج الجديدة المدعومة.

[Object]

كاتب في Ficus Web | تقرير إخباري وقصة قصيرة

#تقنية #C #CUDA #GPU #Hacker News #LLM inference #NVIDIA #open source #Tiny-vLLM #tutorial

Tiny-vLLM: دليل عملي لتشغيل محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟

من يحتاج Tiny-vLLM؟ ومن لا؟

المميزات الرئيسية

المتطلبات الأساسية

خطوات التركيب التفصيلية

شرح ملف الإعدادات والمتغيرات البيئية

تشغيل Tiny-vLLM: تحميل نموذج وتنفيذ استدلال

الأخطاء الشائعة وحلولها

استخدامات عملية

هل يستحق التجربة؟

بدائل Tiny-vLLM

الأسئلة الشائعة

هل Tiny-vLLM يدعم جميع نماذج LLM؟

ما هي متطلبات الأجهزة لتشغيل Tiny-vLLM؟

كيف أحل مشكلة 'CUDA out of memory'؟

هل يمكن تشغيل Tiny-vLLM على Windows؟

ما الفرق بين Tiny-vLLM وvLLM؟

هل Tiny-vLLM مناسب للإنتاج؟

كيف أحدث Tiny-vLLM إلى الإصدار الأحدث؟

هل يدعم Tiny-vLLM الاستدلال متعدد الخيوط؟

Playbook التطبيق

تثبيت المتطلبات الأساسية

استنساخ المستودع وبناء المشروع

تحميل نموذج صغير (مثل gpt2)

تشغيل الاستدلال الأول

حل مشكلة CUDA out of memory

مقارنة الأداء مع llama.cpp

تحديث المشروع إلى أحدث إصدار

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

مقالات ذات صلة

التعليقات (0)