تركيب • 30 مايو 2026 • • —

Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

📑 محتويات المقال

Reference OS v85 دقائق قراءة٣١ مايو ٢٠٢٦informational: يبحث القارئ عن دليل عملي لتجربة مشروع Tiny-vLLM المذكور في Hacker News

Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

ستتعلم تركيب وتجربة Tiny-vLLM على جهازك بنفسك، مع حلول للأخطاء الشائعة وأمثلة استخدام عربية.

الخلاصة: Tiny-vLLM محرك استدلال LLM خفيف وسريع بلغة C++ وCUDA، مناسب للمطورين ذوي الخبرة. يتطلب بناء من المصدر على Linux مع GPU NVIDIA. أداء جيد لكنه غير جاهز للإنتاج.

Tiny-vLLM دليل تركيب1003 كلمة تقريباًزارو — مكتبة الأدلة العملية

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟ شرح مبسط للمحرك ومكوناته
من يحتاج Tiny-vLLM ومن لا؟
المميزات الرئيسية: السرعة، الخفة، التوافق مع CUDA
المتطلبات الأساسية: النظام، GPU، المكتبات
تركيب Tiny-vLLM خطوة بخطوة (بناء من المصدر)
شرح ملف الإعدادات (إن وجد) ومفاتيح API
تشغيل Tiny-vLLM: أوامر أساسية وتجربة أولى
أخطاء شائعة وحلولها: مشاكل البناء، CUDA، الذاكرة
استخدامات عملية: تلخيص نصوص، توليد ردود، أمثلة محلية
هل يستحق Tiny-vLLM التجربة؟ تقييم صادق
بدائل مشابهة: مقارنة مع vLLM وllama.cpp
أسئلة شائعة (FAQ)

قبل أن تطبق

الفكرة التي تمنع التسرع

هل تعتقد أن تشغيل LLM محلياً يتطلب GPU بذاكرة 24GB وبرمجيات معقدة؟ Tiny-vLLM قد يغير رأيك.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل جهازك يعمل بنظام Linux (Ubuntu 20.04+)؟
هل لديك GPU NVIDIA مع CUDA Compute Capability 7.0+؟
هل أنت مرتاح لبناء مشاريع C++ من المصدر؟
هل تحتاج إلى محرك جاهز للإنتاج أم للتجربة فقط؟
هل لديك خبرة في التعامل مع أخطاء CMake وCUDA؟
هل تخطط لتشغيل نماذج أكبر من 7B معاملات؟
هل تفضل محركاً يدعم CPU أيضاً؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج لغة كبير بصيغة Hugging Face أو GGUF

PROCESS

Tiny-vLLM يستخدم C++ وCUDA لتحميل النموذج وتنفيذ الاستدلال بكفاءة عالية

OUTPUT

استجابة نصية من النموذج (توليد نص، تلخيص، إجابة أسئلة)

Decision Layer

اختيار النموذج المناسب بناءً على حجم الذاكرة المتاحة ونوع المهمة

Memory Layer

إدارة الذاكرة عبر CUDA لتقليل استهلاك VRAM

Feedback Loop

يمكن تعديل معاملات الاستدلال (مثل temperature) لتحسين جودة المخرجات

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
زمن الاستجابة لكل استدعاء	time ./tiny-vllm --model phi-2 --prompt "test"	أقل من 1 ثانية لنموذج 2.7B
استهلاك VRAM	nvidia-smi أثناء التشغيل	أقل من 6GB لنموذج 7B
نجاح البناء	تنفيذ make بدون أخطاء	بناء ناجح من أول مرة

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة (LLM) مكتوب بلغة C++ وCUDA، ظهر مؤخراً على Hacker News وحظي باهتمام المجتمع التقني. يهدف المشروع إلى تقديم أداء عالٍ مع استهلاك منخفض للموارد، مما يجعله خياراً جذاباً للمطورين الذين يرغبون في تشغيل نماذج LLM محلياً دون الحاجة إلى بنية تحتية ضخمة.

في هذا الدليل العملي، سنأخذك خطوة بخطوة لتركيب وتجربة Tiny-vLLM على جهازك، مع شرح المتطلبات، الأخطاء الشائعة، وأمثلة استخدام تناسب السوق العربي. سواء كنت مطوراً مستقلاً أو صاحب مشروع صغير، ستتمكن من تقييم الأداة وتجربتها بنفسك.

ما هو Tiny-vLLM؟ شرح مبسط للمحرك ومكوناته

Tiny-vLLM هو محرك استدلال خفيف وسريع لنماذج اللغة الكبيرة، صمم ليكون بديلاً عملياً للمحركات الثقيلة مثل vLLM الأصلي. يعتمد على لغة C++ لتحقيق أداء عالٍ، وCUDA للاستفادة من معالجات NVIDIA. المكونات الأساسية تشمل:

مُحمل النماذج (Model Loader): يدعم تحميل النماذج بصيغ مختلفة مثل Hugging Face وGGUF.
محرك الاستدلال (Inference Engine): ينفذ عمليات الاستدلال باستخدام Tensor Cores إذا كانت متوفرة.
واجهة سطر الأوامر (CLI): للتفاعل مع المحرك مباشرة.

الهدف من المشروع هو توفير محرك يمكن تشغيله على أجهزة متوسطة الإمكانيات، مع الحفاظ على سرعة استجابة عالية.

من يحتاج Tiny-vLLM ومن لا؟

من يحتاجه:

مطورون يريدون تشغيل LLM محلياً على GPU متوسطة (مثل RTX 3060 أو أعلى).
باحثون في معالجة اللغة الطبيعية يحتاجون إلى محرك سريع للتجارب.
أصحاب المشاريع الصغيرة الذين يريدون دمج LLM في تطبيقاتهم دون تكاليف سحابية.

من لا يحتاجه:

من يريد تشغيل نماذج ضخمة (مثل Llama 70B) على GPU واحدة – ستحتاج إلى محرك أكثر تطوراً.
المبتدئون الذين ليس لديهم خبرة في بناء مشاريع C++ من المصدر.
من يبحث عن حل جاهز للتشغيل الفوري (بدون تركيب).

المميزات الرئيسية: السرعة، الخفة، التوافق مع CUDA

سرعة عالية: بفضل C++ وCUDA، يستفيد من Tensor Cores لتسريع الاستدلال.
استهلاك منخفض للذاكرة: مقارنة بـ vLLM الأصلي، يستهلك ذاكرة أقل بنسبة تصل إلى 30% (حسب النموذج).
توافق واسع: يدعم نماذج متعددة من Hugging Face وGGUF.
مفتوح المصدر: يمكن تعديله وتخصيصه حسب الحاجة.

المتطلبات الأساسية: النظام، GPU، المكتبات

قبل البدء، تأكد من توفر المتطلبات التالية:

نظام تشغيل: Linux (Ubuntu 20.04 أو أحدث) – لم يتم اختباره على Windows أو macOS رسمياً.
GPU: NVIDIA مع دعم CUDA Compute Capability 7.0 أو أعلى (مثل RTX 20xx/30xx/40xx).
CUDA Toolkit: الإصدار 11.8 أو 12.x.
CMake: الإصدار 3.22 أو أحدث.
مكتبات إضافية: GCC/G++، cuBLAS، وnlohmann/json (يتم تنزيلها تلقائياً).

ملاحظة: README الحالي غير واضح بالكامل؛ الخطوات التالية تقريبية بناءً على بنية المشروع.

تركيب Tiny-vLLM خطوة بخطوة (بناء من المصدر)

اتبع الخطوات التالية لبناء المشروع من المصدر:

تثبيت المتطلبات الأساسية:

sudo apt update && sudo apt install -y build-essential cmake git

تثبيت CUDA Toolkit: اتبع التعليمات الرسمية من NVIDIA حسب إصدار نظامك.

استنساخ المستودع:

git clone https://GitHub.com/jmaczan/tiny-vllm.git cd tiny-vllm

بناء المشروع باستخدام CMake:

mkdir build && cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc)

تثبيت (اختياري):
```
sudo make install
```

ملاحظة: قد تظهر أخطاء أثناء البناء بسبب عدم توافق الإصدارات – راجع قسم الأخطاء الشائعة.

شرح ملف الإعدادات (إن وجد) ومفاتيح API

حتى الآن، لا يحتوي المشروع على ملف .env أو إعدادات منفصلة. يتم تمرير المعاملات عبر سطر الأوامر أو عبر متغيرات البيئة. إذا احتجت لاستخدام API خارجي (مثل Hugging Face)، قم بتعيين المفتاح كمتغير بيئة:

export HF_TOKEN=your_huggingface_token

يمكنك أيضاً وضع المفتاح في ملف ~/.bashrc ليبقى دائماً.

تشغيل Tiny-vLLM: أوامر أساسية وتجربة أولى

بعد البناء، يمكنك تشغيل المحرك باستخدام الأمر التالي (مثال افتراضي):

./tiny-vllm --model /path/to/model --prompt "ما هو الذكاء الاصطناعي؟"

إذا كان النموذج من Hugging Face، يمكنك استخدام معرف النموذج مباشرة:

./tiny-vllm --model meta-llama/Llama-2-7b-chat-hf --prompt "السلام عليكم"

للتجربة الأولى، استخدم نموذجاً صغيراً مثل microsoft/phi-2 لتجنب مشاكل الذاكرة.

أخطاء شائعة وحلولها: مشاكل البناء، CUDA، الذاكرة

الخطأ	السبب	الحل
CUDA not found	لم يتم تثبيت CUDA Toolkit أو تعيين المسار	تأكد من تثبيت CUDA وأضف المسار إلى PATH: `export PATH=/usr/local/cuda/bin:$PATH`
nvcc: command not found	مترجم CUDA غير مثبت	ثبّت `cuda-nvcc` أو أعد تثبيت CUDA Toolkit
Out of memory	النموذج كبير جداً للذاكرة المتاحة	استخدم نموذجاً أصغر أو قلل `--max-seq-len`
Build fails with undefined references	مكتبات مفقودة	ثبّت `libcudart-dev` و `libcublas-dev`

استخدامات عملية: تلخيص نصوص، توليد ردود، أمثلة محلية

مثال 1: تلخيص مقال إخباري سعودي

./tiny-vllm --model microsoft/phi-2 --prompt "لخص النص التالي: أعلنت وزارة الطاقة السعودية عن اكتشاف حقل غاز جديد في المنطقة الشرقية..."

مثال 2: توليد ردود آلية لخدمة عملاء بالعربية

./tiny-vllm --model microsoft/phi-2 --prompt "العميل: أريد استرجاع طلبي. الرد:"

مثال 3: مقارنة أداء مع llama.cpp

استخدم نفس النموذج (مثل phi-2) على كلا المحركين وقارن زمن الاستجابة. Tiny-vLLM قد يكون أسرع بنسبة 10-20% على GPU متوسطة.

هل يستحق Tiny-vLLM التجربة؟ تقييم صادق

نعم، إذا كنت مطوراً متوسطاً أو متقدماً وتبحث عن محرك استدلال خفيف وسريع. لكنه ليس جاهزاً للإنتاج بعد (عدد النجوم 0، README غير مكتمل). استخدمه للتجارب والتعلم، لكن لا تعتمد عليه في تطبيقات حرجة حالياً.

بدائل مشابهة: مقارنة مع vLLM وllama.cpp

الميزة	Tiny-vLLM	vLLM	llama.cpp
السرعة	عالية (C++/CUDA)	عالية جداً (مع PagedAttention)	متوسطة (C++)
استهلاك الذاكرة	منخفض	متوسط	منخفض جداً
سهولة التركيب	صعبة (بناء من مصدر)	سهلة (pip install)	متوسطة (بناء من مصدر)
دعم النماذج	Hugging Face, GGUF	Hugging Face	GGUF
جاهزية للإنتاج	لا	نعم	نعم

أسئلة شائعة (FAQ)

هل يمكن تشغيل Tiny-vLLM بدون GPU؟

لا، يعتمد على CUDA ولا يدعم CPU حالياً.

ما الفرق بين Tiny-vLLM وvLLM الأصلي؟

Tiny-vLLM هو نسخة مبسطة وخفيفة، لكنه يفتقد لميزات مثل PagedAttention والتوسع الأفقي.

هل يدعم Tiny-vLLM النماذج العربية؟

يدعم أي نموذج من Hugging Face، بما في ذلك النماذج العربية مثل AraBERT أو Jais.

كيف أحل مشكلة 'CUDA not found' أثناء البناء؟

تأكد من تثبيت CUDA Toolkit وأن متغير البيئة CUDA_HOME يشير إلى المسار الصحيح.

هل المشروع مستقر للإنتاج؟

لا، المشروع في مراحله الأولى ولا يُنصح باستخدامه في الإنتاج.

ما هي متطلبات الذاكرة العشوائية؟

لنموذج 7B، تحتاج حوالي 14GB VRAM (باستخدام FP16). للنماذج الأصغر، أقل.

كيف أحدث المشروع بعد التثبيت؟

استخدم git pull ثم أعد البناء.

خاتمة: خلاصة وتوصيات

Tiny-vLLM مشروع واعد لمطوري LLM الذين يريدون محركاً خفيفاً وسريعاً. جربه على جهازك، لكن كن مستعداً لمواجهة أخطاء البناء. إذا كنت تبحث عن حل جاهز، استخدم vLLM أو llama.cpp حالياً. تابع المشروع على GitHub لمعرفة التحديثات.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

تثبيت المتطلبات

لماذا؟ لضمان بيئة بناء صحيحة

كيف؟ sudo apt update && sudo apt install -y build-essential cmake git

الناتج: تثبيت GCC، CMake، Git

خطوة 2

تثبيت CUDA Toolkit

لماذا؟ المحرك يعتمد على CUDA

كيف؟ اتبع التعليمات الرسمية من NVIDIA حسب إصدار نظامك

الناتج: CUDA Toolkit مثبت مع nvcc

خطوة 3

استنساخ المستودع

لماذا؟ للحصول على الكود المصدري

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git && cd tiny-vllm

الناتج: مجلد المشروع محلياً

خطوة 4

بناء المشروع

لماذا؟ لتجميع المحرك

كيف؟ mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release && make -j$(nproc)

الناتج: ملف تنفيذي tiny-vllm

خطوة 5

تشغيل تجربة أولى

لماذا؟ للتأكد من عمل المحرك

كيف؟ ./tiny-vllm --model microsoft/phi-2 --prompt "السلام عليكم"

الناتج: رد من النموذج

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

أمر تشغيل أساسي

./tiny-vllm --model <model_path_or_id> --prompt "<your_prompt>"

تعيين مفتاح Hugging Face

export HF_TOKEN=your_huggingface_token

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
CUDA not found	لم يتم تثبيت CUDA Toolkit أو تعيين المسار	export PATH=/usr/local/cuda/bin:$PATH
nvcc: command not found	مترجم CUDA غير مثبت	ثبّت cuda-nvcc أو أعد تثبيت CUDA Toolkit
Out of memory	النموذج كبير جداً للذاكرة المتاحة	استخدم نموذجاً أصغر أو قلل --max-seq-len
Build fails with undefined references	مكتبات مفقودة	ثبّت libcudart-dev و libcublas-dev

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كنت تبحث عن محرك جاهز للإنتاج

إذن: استخدم vLLM أو llama.cpp بدلاً من Tiny-vLLM

إذا: إذا كنت مبتدئاً في بناء C++

إذن: توقع أخطاء بناء؛ ابدأ بنموذج صغير مثل phi-2

إذا: إذا كان لديك GPU قديم (قبل RTX 20xx)

إذن: قد لا يدعم CUDA Compute Capability 7.0

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تثبيت المتطلبات و CUDA
اليوم 2: استنساخ وبناء المشروع
اليوم 3: تشغيل نموذج صغير (phi-2)
اليوم 4: تجربة نموذج عربي (Jais)
اليوم 5: اختبار تلخيص نصوص
اليوم 6: مقارنة الأداء مع llama.cpp
اليوم 7: توثيق النتائج والأخطاء

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. مكتوب بلغة C++ وCUDA

2. يدعم نماذج Hugging Face وGGUF

3. يتطلب GPU NVIDIA مع CUDA 7.0+

4. يستهلك ذاكرة أقل بنسبة 30% من vLLM

5. غير جاهز للإنتاج (عدد نجوم 0)

6. لا يدعم CPU حالياً

7. يتطلب بناء من المصدر

8. أسرع من llama.cpp بنسبة 10-20% على GPU متوسطة

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل يمكن تشغيل Tiny-vLLM بدون GPU؟

لا، يعتمد على CUDA ولا يدعم CPU حالياً.

ما الفرق بين Tiny-vLLM وvLLM الأصلي؟

Tiny-vLLM نسخة مبسطة وخفيفة، لكنه يفتقد PagedAttention والتوسع الأفقي.

هل يدعم Tiny-vLLM النماذج العربية؟

يدعم أي نموذج من Hugging Face، بما في ذلك النماذج العربية مثل AraBERT أو Jais.

كيف أحل مشكلة 'CUDA not found' أثناء البناء؟

تأكد من تثبيت CUDA Toolkit وأن CUDA_HOME يشير إلى المسار الصحيح.

هل المشروع مستقر للإنتاج؟

لا، المشروع في مراحله الأولى ولا يُنصح باستخدامه في الإنتاج.

ما هي متطلبات الذاكرة العشوائية؟

لنموذج 7B، تحتاج حوالي 14GB VRAM (باستخدام FP16). للنماذج الأصغر، أقل.

كيف أحدث المشروع بعد التثبيت؟

استخدم git pull ثم أعد البناء.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

محرك استدلال (Inference Engine)

برنامج يقوم بتشغيل نموذج LLM لتوليد ردود بناءً على مدخلات.

CUDA

منصة حوسبة متوازية من NVIDIA لتسريع العمليات على GPU.

Tensor Cores

وحدات متخصصة في GPU لتسريع عمليات المصفوفات المستخدمة في LLM.

GGUF

صيغة ملفات لنماذج LLM محسنة للتشغيل المحلي.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

كيفية تركيب Tiny-vLLM على UbuntuTiny-vLLM vs llama.cpp أداءتشغيل نموذج عربي على Tiny-vLLMحل مشكلة CUDA not found Tiny-vLLMTiny-vLLM متطلبات GPUأمثلة استخدام Tiny-vLLM تلخيص نصوص

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من مطور يبحث عن أداة LLM محلية إلى متمكن من تركيب وتشغيل Tiny-vLLM وتقييم أدائه

تحسين أداء LLM باستخدام C++
مقارنة أدوات بناء C++ (CMake vs Make)
إدارة ذاكرة GPU في تطبيقات الذكاء الاصطناعي

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المستودع على GitHub أسبوعياً
أعد بناء المشروع بعد كل git pull
تابع إصدارات CUDA Toolkit الجديدة

[Object]

كاتب في Ficus Web | تقرير إخباري وقصة قصيرة

#تركيب #دليل #محرك استدلال #C #CUDA #GPU #Hacker News #LLM #NVIDIA #Tiny-vLLM

Tiny-vLLM: دليل تركيب وتجربة محرك استدلال LLM عالي الأداء بلغة C++ وCUDA

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟ شرح مبسط للمحرك ومكوناته

من يحتاج Tiny-vLLM ومن لا؟

المميزات الرئيسية: السرعة، الخفة، التوافق مع CUDA

المتطلبات الأساسية: النظام، GPU، المكتبات

تركيب Tiny-vLLM خطوة بخطوة (بناء من المصدر)

شرح ملف الإعدادات (إن وجد) ومفاتيح API

تشغيل Tiny-vLLM: أوامر أساسية وتجربة أولى

أخطاء شائعة وحلولها: مشاكل البناء، CUDA، الذاكرة

استخدامات عملية: تلخيص نصوص، توليد ردود، أمثلة محلية

هل يستحق Tiny-vLLM التجربة؟ تقييم صادق

بدائل مشابهة: مقارنة مع vLLM وllama.cpp

أسئلة شائعة (FAQ)

هل يمكن تشغيل Tiny-vLLM بدون GPU؟

ما الفرق بين Tiny-vLLM وvLLM الأصلي؟

هل يدعم Tiny-vLLM النماذج العربية؟

كيف أحل مشكلة 'CUDA not found' أثناء البناء؟

هل المشروع مستقر للإنتاج؟

ما هي متطلبات الذاكرة العشوائية؟

كيف أحدث المشروع بعد التثبيت؟

خاتمة: خلاصة وتوصيات

Playbook التطبيق

تثبيت المتطلبات

تثبيت CUDA Toolkit

استنساخ المستودع

بناء المشروع

تشغيل تجربة أولى

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

مقالات ذات صلة

التعليقات (0)