تقنية • 1 يونيو 2026 • • —

Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

📑 محتويات المقال

Reference OS v85 دقائق قراءة٢ يونيو ٢٠٢٦informational: شرح أداة تقنية جديدة وتقييمها وطريقة تجربتها

Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

بعد قراءة هذا الدليل، ستتمكن من تثبيت وتشغيل Tiny-vLLM على جهازك بنظام Linux، وتجربة استدلال نموذج صغير، وتقييم أدائه مقارنة بالمحركات الأخرى.

الخلاصة: Tiny-vLLM محرك استدلال LLM بلغة C++/CUDA، مناسب للتجربة على GPU بسعة 8GB+. يتطلب بناء من المصدر، ويدعم نماذج Hugging Face. غير جاهز للإنتاج بعد.

Tiny-vLLM دليل تركيب864 كلمة تقريباًزارو — مكتبة الأدلة العملية

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟
من يحتاج Tiny-vLLM ومن لا؟
المميزات الرئيسية
المتطلبات الأساسية
تركيب Tiny-vLLM خطوة بخطوة (تقريبي)
تشغيل النموذج
الأخطاء الشائعة وحلولها
استخدامات عملية في السوق السعودي/الخليجي
هل يستحق Tiny-vLLM التجربة؟ (مقارنة مع vLLM وllama.cpp)
بدائل مشابهة
الأسئلة الشائعة (FAQ)

قبل أن تطبق

الفكرة التي تمنع التسرع

تعتقد أن كل مشروع جديد على GitHub يحتاج إلى فريق ضخم أو GPU فائق؟ Tiny-vLLM يثبت العكس، لكن README غير الواضح قد يخيفك. هنا الدليل الذي يجعلك تبدأ فوراً.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل لديك GPU من NVIDIA بسعة ذاكرة 8GB على الأقل؟
هل نظامك Linux (أو WSL2) مع تثبيت CUDA Toolkit 11.8+؟
هل لديك خبرة في بناء مشاريع C++ من المصدر باستخدام CMake؟
هل تبحث عن محرك استدلال خفيف وسريع للتجربة وليس للإنتاج؟
هل تريد تشغيل نموذج بحجم 7B أو أصغر؟
هل تفضل محركاً مكتوباً بلغة C++ لأداء أعلى؟
هل أنت مستعد لمواجهة أخطاء محتملة بسبب حداثة المشروع؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج لغة كبير بصيغة Hugging Face (مثل Llama-2-7B) + مطالبة نصية

PROCESS

تحميل النموذج إلى GPU، تحويل المطالبة إلى توكنز، تشغيل الاستدلال عبر نوى CUDA محسّنة، توليد الرد

OUTPUT

نص الرد المولد مع إحصائيات الأداء (زمن الاستجابة، عدد التوكنز في الثانية)

Decision Layer

اختيار حجم النموذج بناءً على ذاكرة GPU المتاحة (7B يحتاج ~14GB VRAM)

Memory Layer

إدارة ذاكرة GPU عبر KV cache محسّن لتقليل الاستهلاك

Feedback Loop

مراقبة استخدام GPU وذاكرته، تعديل حجم الدفعة (batch size) أو طول السياق

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
وقت الاستدلال لكل رمز (ms/token)	استخدم أداة قياس الوقت أو سجل الإخراج.	أقل من 50 ms/token لنموذج 7B على GPU حديث.
استهلاك ذاكرة GPU (GB)	راقب باستخدام nvidia-smi أثناء التشغيل.	أقل من 80% من سعة GPU.
نجاح البناء	تنفيذ cmake --build دون أخطاء.	بناء ناجح بدون تحذيرات حرجة.

ظهر مشروع Tiny-vLLM مؤخراً على Hacker News كمحرك استدلال لنماذج اللغة الكبيرة (LLM) مكتوب بلغة C++ وCUDA، يعد بأداء عالٍ مع استهلاك منخفض للموارد. لكن README الخاص به لا يوضح خطوات التركيب بالتفصيل، مما قد يثبط عزيمة المطور العربي. في هذا الدليل، نقدم لك خطوات تقريبية مبنية على بنية المشروع، مع شرح المتطلبات والأخطاء الشائعة، لتتمكن من تجربته بنفسك.

سواء كنت مطوراً مستقلاً أو صاحب مشروع صغير أو صانع محتوى تقني، ستتعلم هنا كيفية بناء Tiny-vLLM من المصدر، تشغيل نموذج صغير، وتقييم أدائه مقارنة بالمحركات الأخرى مثل vLLM وllama.cpp. الهدف: تحويل فضولك إلى تجربة عملية دون إضاعة وقت.

ما هو Tiny-vLLM؟

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة، مكتوب بلغة C++ ويستخدم CUDA لتسريع العمليات على GPU. يهدف إلى تقديم أداء عالٍ مع استهلاك منخفض للذاكرة، مما يجعله مناسباً للأجهزة متوسطة الموارد. المشروع جديد (ظهر على Hacker News) ولم يُختبر على نطاق واسع بعد، لكنه يقدم بديلاً مثيراً للاهتمام لـ vLLM وllama.cpp.

من يحتاج Tiny-vLLM ومن لا؟

يناسبك إذا: كنت مطوراً تبحث عن محرك استدلال خفيف وسريع، لديك GPU بسعة ذاكرة 8GB على الأقل، وترغب في تجربة أدوات جديدة. لا يناسبك إذا: كنت تبحث عن حل جاهز للإنتاج، أو ليس لديك خبرة في بناء مشاريع C++ من المصدر، أو تريد دعماً واسعاً للنماذج (مثل GPTQ أو AWQ).

المميزات الرئيسية

مكتوب بلغة C++ لأداء عالٍ واستهلاك منخفض للذاكرة.
يستخدم CUDA لتسريع الاستدلال على GPU.
يدعم نماذج Hugging Face (مثل Llama وGPT-2).
مشروع مفتوح المصدر ونشط على GitHub.

المتطلبات الأساسية

نظام تشغيل: Linux (مثل Ubuntu 20.04 أو أحدث) أو WSL2 على Windows.
GPU من NVIDIA مع دعم CUDA (يفضل 8GB VRAM على الأقل لنماذج 7B).
CUDA Toolkit 11.8 أو أحدث.
مترجم C++ يدعم C++17 (مثل GCC 9+ أو Clang 10+).
CMake 3.20+.
مكتبة cuDNN (اختياري للتحسين).

تركيب Tiny-vLLM خطوة بخطوة (تقريبي)

ملاحظة: README المشروع لا يوضح خطوات التركيب بالتفصيل. الخطوات التالية مبنية على بنية المشروع (ملفات CMakeLists.txt والمصدر). قد تختلف حسب إعداداتك.

استنساخ المستودع:
git clone https://GitHub.com/jmaczan/tiny-vllm.git cd tiny-vllm
إنشاء مجلد البناء:
mkdir build && cd build
تشغيل CMake:
cmake .. -DCMAKE_BUILD_TYPE=Release
إذا واجهت أخطاء متعلقة بـ CUDA، تأكد من تثبيت CUDA Toolkit وأن متغير البيئة CUDACXX يشير إلى مسار مترجم nvcc.
بناء المشروع:
cmake --build . --target tiny_vllm -j$(nproc)
سيؤدي هذا إلى إنشاء ملف تنفيذي باسم tiny_vllm في مجلد build.

تشغيل النموذج

بعد البناء، يمكنك تشغيل النموذج باستخدام الأمر التالي (مثال افتراضي):

./tiny_vllm --model /path/to/model --prompt "مرحباً، كيف حالك؟"

حيث /path/to/model هو مسار مجلد النموذج بصيغة Hugging Face. يجب أن يحتوي المجلد على ملفات config.json وpytorch_model.bin (أو model.safetensors).

إذا كان النموذج كبيراً (مثل Llama-2-7B)، تأكد من أن ذاكرة GPU كافية. يمكنك مراقبة الاستخدام باستخدام nvidia-smi.

الأخطاء الشائعة وحلولها

الخطأ	السبب	الحل
CUDA error: out of memory	النموذج أكبر من ذاكرة GPU	استخدم نموذجاً أصغر (مثل GPT-2) أو قلل طول السياق
nvcc not found	CUDA Toolkit غير مثبت أو غير مضبوط في PATH	تأكد من تثبيت CUDA وأضف المسار إلى `PATH` أو استخدم `-DCUDAToolkit_ROOT`
fatal error: cuda_runtime.h: No such file or directory	مكتبات CUDA غير موجودة	ثبّت `cuda-toolkit` أو استخدم `-DCMAKE_CUDA_COMPILER`
undefined reference to `some_function'	تبعيات مفقودة	تأكد من تثبيت جميع التبعيات (مثل cuDNN) أو راجع CMakeLists.txt

استخدامات عملية في السوق السعودي/الخليجي

تطبيقات المحادثة العربية: يمكن استخدام Tiny-vLLM لتشغيل نموذج عربي مثل ar-llama على خادم محلي، مما يقلل التكاليف ويزيد الخصوصية.
تحليل النصوص: تشغيل نموذج تلخيص أو تصنيف نصوص على أجهزة متوسطة في الشركات الناشئة.
التعليم والبحث: تجربة نماذج LLM في الجامعات دون الحاجة إلى سحابة باهظة الثمن.

هل يستحق Tiny-vLLM التجربة؟ (مقارنة مع vLLM وllama.cpp)

الميزة	Tiny-vLLM	vLLM	llama.cpp
اللغة	C++	Python	C++
دعم GPU	CUDA فقط	CUDA	CUDA, Metal, Vulkan
سهولة التركيب	متوسطة (بناء من المصدر)	سهلة (pip install)	سهلة (تحميل ثنائي)
الأداء	وعد بأداء عالٍ (غير موثق)	موثق بأداء عالٍ	جيد جداً
النضج	جديد (غير مستقر)	ناضج	ناضج
دعم النماذج	Hugging Face	Hugging Face, GPTQ, AWQ	GGUF, Hugging Face

الخلاصة: Tiny-vLLM مناسب للتجربة والاستكشاف، لكنه ليس جاهزاً للإنتاج بعد. إذا كنت بحاجة إلى حل مستقر، استخدم vLLM أو llama.cpp.

بدائل مشابهة

vLLM: محرك استدلال Python ناضج مع دعم واسع.
llama.cpp: محرك C++ خفيف يدعم أجهزة متعددة.
Text Generation Inference (TGI): من Hugging Face، مناسب للإنتاج.

الأسئلة الشائعة (FAQ)

هل يمكن تشغيل Tiny-vLLM على CPU فقط بدون GPU؟

لا، المشروع يعتمد على CUDA ولا يدعم CPU حالياً.

ما الفرق بين Tiny-vLLM وvLLM؟

Tiny-vLLM مكتوب بلغة C++ ويعد بأداء أعلى، لكن vLLM أكثر نضجاً ويدعم ميزات أكثر.

هل يدعم Tiny-vLLM نماذج GPTQ أو AWQ؟

لا، المشروع لا يذكر دعم النماذج المضغوطة حالياً.

كيف أحصل على نموذج متوافق مع Tiny-vLLM؟

استخدم نموذجاً بصيغة Hugging Face (مثل Llama-2-7B) من Hugging Face Hub.

هل Tiny-vLLM مناسب للإنتاج أم للتجربة فقط؟

للتجربة فقط في الوقت الحالي، نظراً لحداثته وعدم استقراره.

ما هي متطلبات GPU الدنيا لتشغيل نموذج 7B؟

تحتاج إلى GPU بسعة ذاكرة 14GB على الأقل (مثل RTX 3080 12GB قد لا يكفي).

هل يوجد دعم للغة العربية في Tiny-vLLM؟

المحرك لا يهتم باللغة، لكن يمكنك استخدام نموذج عربي مدرب مسبقاً.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

تثبيت المتطلبات الأساسية

لماذا؟ المشروع يعتمد على CUDA وC++17 وCMake.

كيف؟ تثبيت CUDA Toolkit 11.8+، GCC 9+، CMake 3.20+، وتأكد من وجود nvcc في PATH.

الناتج: بيئة بناء جاهزة.

خطوة 2

استنساخ المستودع

لماذا؟ للحصول على كود المصدر.

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm

الناتج: مجلد المشروع محلياً.

خطوة 3

بناء المشروع

لماذا؟ إنشاء ملف تنفيذي من المصدر.

كيف؟ mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && cmake --build . --target tiny_vllm -j$(nproc)

الناتج: ملف tiny_vllm في مجلد build.

خطوة 4

تشغيل النموذج

لماذا؟ اختبار المحرك.

كيف؟ ./tiny_vllm --model /path/to/model --prompt "مرحباً"

الناتج: استجابة النموذج.

خطوة 5

مراقبة الأداء

لماذا؟ تقييم استهلاك الموارد.

كيف؟ استخدم nvidia-smi لمراقبة GPU.

الناتج: بيانات استخدام الذاكرة والوقت.

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

أمر تشغيل نموذج

./tiny_vllm --model /path/to/model --prompt "نص الاستفسار"

أمر بناء مع خيارات

cmake .. -DCMAKE_BUILD_TYPE=Release -DCUDAToolkit_ROOT=/usr/local/cuda

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
CUDA error: out of memory	النموذج كبير جداً لذاكرة GPU.	استخدم نموذجاً أصغر مثل GPT-2 أو قلل طول السياق.
nvcc not found	CUDA Toolkit غير مثبت أو غير مضبوط في PATH.	تأكد من تثبيت CUDA وأضف المسار إلى PATH أو استخدم -DCUDAToolkit_ROOT.
fatal error: cuda_runtime.h: No such file or directory	مكتبات CUDA غير موجودة.	ثبّت cuda-toolkit أو استخدم -DCMAKE_CUDA_COMPILER.
undefined reference to `some_function'	تبعيات مفقودة مثل cuDNN.	تأكد من تثبيت جميع التبعيات أو راجع CMakeLists.txt.

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU بسعة 8GB+ ونظام Linux

إذن: اتبع خطوات التثبيت والتشغيل.

إذا: إذا كنت تحتاج حل إنتاجي مستقر

إذن: استخدم vLLM أو llama.cpp بدلاً من ذلك.

إذا: إذا واجهت أخطاء في البناء

إذن: راجع جدول الأخطاء الشائعة والحلول.

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تثبيت المتطلبات (CUDA, GCC, CMake).
اليوم 2: استنساخ المستودع وبناء المشروع.
اليوم 3: تشغيل نموذج صغير (مثل GPT-2).
اليوم 4: اختبار نموذج 7B ومراقبة الأداء.
اليوم 5: مقارنة النتائج مع vLLM أو llama.cpp.
اليوم 6: توثيق الأخطاء التي واجهتها وحلولها.
اليوم 7: مشاركة التجربة على منتدى أو مدونة.

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Tiny-vLLM مكتوب بلغة C++ وCUDA فقط.

2. يدعم نماذج Hugging Face مثل Llama وGPT-2.

3. يتطلب GPU من NVIDIA مع CUDA 11.8+.

4. البناء من المصدر يتطلب CMake 3.20+ ومترجم C++17.

5. المشروع جديد وغير مستقر، غير مناسب للإنتاج.

6. لا يدعم CPU أو نماذج مضغوطة مثل GPTQ.

7. يمكن تشغيل نماذج عربية إذا كانت بصيغة Hugging Face.

8. البدائل الناضجة: vLLM وllama.cpp.

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل يمكن تشغيل Tiny-vLLM على CPU فقط؟

لا، المشروع يعتمد على CUDA ولا يدعم CPU حالياً.

ما الفرق بين Tiny-vLLM وvLLM؟

Tiny-vLLM مكتوب بلغة C++ ويعد بأداء أعلى، لكن vLLM أكثر نضجاً ويدعم ميزات أكثر.

هل يدعم Tiny-vLLM نماذج GPTQ أو AWQ؟

لا، المشروع لا يذكر دعم النماذج المضغوطة حالياً.

كيف أحصل على نموذج متوافق مع Tiny-vLLM؟

استخدم نموذجاً بصيغة Hugging Face (مثل Llama-2-7B) من Hugging Face Hub.

هل Tiny-vLLM مناسب للإنتاج أم للتجربة فقط؟

للتجربة فقط في الوقت الحالي، نظراً لحداثته وعدم استقراره.

ما هي متطلبات GPU الدنيا لتشغيل نموذج 7B؟

تحتاج إلى GPU بسعة ذاكرة 14GB على الأقل (مثل RTX 3080 12GB قد لا يكفي).

هل يوجد دعم للغة العربية في Tiny-vLLM؟

المحرك لا يهتم باللغة، لكن يمكنك استخدام نموذج عربي مدرب مسبقاً.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

CUDA

منصة حوسبة متوازية من NVIDIA لتسريع العمليات على GPU.

CMake

أداة بناء متعددة المنصات لإدارة عملية الترجمة.

Inference Engine

محرك استدلال يقوم بتشغيل نموذج مدرب لإنتاج تنبؤات.

Hugging Face

منصة ومكتبة لنماذج التعلم الآلي، توفر نماذج جاهزة.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

كيفية تثبيت Tiny-vLLM على Ubuntuمقارنة Tiny-vLLM مع vLLMتشغيل نموذج عربي على Tiny-vLLMأخطاء بناء Tiny-vLLM وحلولهامتطلبات GPU لتشغيل Tiny-vLLMTiny-vLLM vs llama.cpp الأداء

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من مطور متردد في تجربة مشاريع GitHub الجديدة إلى قادر على تقييم وتركيب وتشغيل Tiny-vLLM بثقة.

تحسين أداء GPU للاستدلال
إدارة ذاكرة GPU في تطبيقات LLM
اختيار نموذج LLM حسب حجم GPU

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لمطوري LLM الذين يريدون تجربة محرك استدلال خفيف وسريع. على الرغم من أن README غير واضح، إلا أن خطوات التركيب التقريبية التي قدمناها تمكنك من تجربته. تذكر أنه مشروع جديد وغير مستقر، لذا استخدمه للتجربة والتعلم، وليس للإنتاج. إذا أعجبك الأداء، تابع تطوراته على GitHub. وإذا لم يناسبك، فلديك بدائل ناضجة مثل vLLM وllama.cpp.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المستودع على GitHub أسبوعياً.
تحديث خطوات التثبيت إذا تغيرت بنية المشروع.
إضافة نماذج جديدة مدعومة عند إصدارها.

[Object]

كاتب في Ficus Web | تقرير إخباري وقصة قصيرة

#تقنية #دليل تركيب #محرك استدلال #C #CUDA #GPU #Hacker News #Hugging Face #LLM #Tiny-vLLM

Tiny-vLLM: دليل تركيب وتشغيل محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟

من يحتاج Tiny-vLLM ومن لا؟

المميزات الرئيسية

المتطلبات الأساسية

تركيب Tiny-vLLM خطوة بخطوة (تقريبي)

تشغيل النموذج

الأخطاء الشائعة وحلولها

استخدامات عملية في السوق السعودي/الخليجي

هل يستحق Tiny-vLLM التجربة؟ (مقارنة مع vLLM وllama.cpp)

بدائل مشابهة

الأسئلة الشائعة (FAQ)

هل يمكن تشغيل Tiny-vLLM على CPU فقط بدون GPU؟

ما الفرق بين Tiny-vLLM وvLLM؟

هل يدعم Tiny-vLLM نماذج GPTQ أو AWQ؟

كيف أحصل على نموذج متوافق مع Tiny-vLLM؟

هل Tiny-vLLM مناسب للإنتاج أم للتجربة فقط؟

ما هي متطلبات GPU الدنيا لتشغيل نموذج 7B؟

هل يوجد دعم للغة العربية في Tiny-vLLM؟

Playbook التطبيق

تثبيت المتطلبات الأساسية

استنساخ المستودع

بناء المشروع

تشغيل النموذج

مراقبة الأداء

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

مقالات ذات صلة

التعليقات (0)