تقنية • 30 مايو 2026 • • —

Tiny-vLLM: دليل عملي لمحرك استدلال LLM عالي الأداء بلغة C++ وCUDA

📑 محتويات المقال

Reference OS v85 دقائق قراءة٣٠ مايو ٢٠٢٦informational: شرح أداة تقنية جديدة وتجربتها عملياً

Tiny-vLLM: دليل عملي لمحرك استدلال LLM عالي الأداء بلغة C++ وCUDA

سأتعلم كيفية تثبيت وتشغيل Tiny-vLLM على جهازي مع GPU NVIDIA، مع حلول للأخطاء الشائعة.

الخلاصة: Tiny-vLLM محرك استدلال LLM عالي الأداء بلغة C++ وCUDA، يتطلب GPU NVIDIA وCUDA Toolkit. التركيب صعب والمشروع في مراحله الأولى. مناسب للمطورين المتمرسين، وللمبتدئين يُفضل llama.cpp.

Tiny-vLLM دليل عملي709 كلمة تقريباًزارو — مكتبة الأدلة العملية

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟ شرح مبسط لمحرك الاستدلال
من يحتاج Tiny-vLLM؟ ومن لا يحتاجه؟
المميزات الرئيسية: سرعة، كفاءة، مفتوح المصدر
المتطلبات الأساسية: الأجهزة، CUDA، C++ compiler
تركيب Tiny-vLLM خطوة بخطوة (ملاحظة: README غير واضح، الخطوات تقريبية)
شرح ملف .env (إن وجد) وإعدادات API
تشغيل Tiny-vLLM وتجربة استدلال نموذج
أخطاء شائعة وحلولها
استخدامات عملية: أمثلة تطبيقية للمطور العربي
هل يستحق Tiny-vLLM التجربة؟ تقييم صادق
بدائل مشابهة: vLLM, llama.cpp, Ollama
أسئلة شائعة (FAQ)

قبل أن تطبق

الفكرة التي تمنع التسرع

تعتقد أن تشغيل LLM محلياً يتطلب أجهزة خارقة وخدمات سحابية باهظة؟ Tiny-vLLM يثبت العكس.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل لديك GPU NVIDIA مع قدرة حسابية 7.0 فأعلى؟
هل قمت بتثبيت CUDA Toolkit 11.8 أو أحدث؟
هل لديك مترجم C++ يدعم C++17 (مثل GCC 9+)؟
هل نظامك Linux (مثل Ubuntu 22.04)؟
هل أنت على دراية بأساسيات C++ وCUDA؟
هل لديك نموذج LLM بصيغة Hugging Face (مثل Llama-2-7B)؟
هل تبحث عن أداء عالٍ على حساب سهولة الاستخدام؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج LLM (مثل Llama-2-7B) بصيغة Hugging Face أو GGUF، ونص استفسار (prompt)

PROCESS

Tiny-vLLM يستخدم C++ وCUDA لتحميل النموذج على GPU، وتنفيذ عمليات الاستدلال (matrix multiplications) بكفاءة عالية، مع دعم تقنيات مثل quantization لتقليل استخدام الذاكرة.

OUTPUT

نص مولد (response) بناءً على الاستفسار، مع زمن استجابة منخفض.

Decision Layer

اختيار النموذج المناسب (حجم، دقة)، ضبط batch size، اختيار precision (FP16/INT8).

Memory Layer

إدارة الذاكرة عبر GPU، مع إمكانية تفريغ cache بعد كل استدلال.

Feedback Loop

قياس زمن الاستجابة وعدد tokens في الثانية لتحسين الأداء.

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
وقت الاستدلال	قياس الوقت من إرسال الطلب حتى استلام الرد	أقل من 5 ثوانٍ لنموذج 7B
استهلاك VRAM	استخدام nvidia-smi لمراقبة الذاكرة	أقل من 14GB لنموذج 7B FP16

ظهر مشروع Tiny-vLLM مؤخراً على Hacker News تحت عنوان "Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA". الفكرة: محرك استدلال لنماذج اللغة الكبيرة مكتوب بلغة C++ وCUDA، يعد بأداء عالٍ مع استهلاك منخفض للموارد. لكن README الخاص بالمشروع غير واضح، والخطوات المذكورة تقريبية. في هذا الدليل، سنشرح لك ما هو Tiny-vLLM، لمن هو مناسب، وكيف يمكنك تركيبه وتشغيله على جهازك بخطوات عملية، مع ذكر القيود والأخطاء الشائعة.

الهدف: تحويل هذا المشروع الناشئ إلى دليل عربي عملي يمكنك من تجربة استدلال LLM محلياً دون الحاجة لخدمات سحابية باهظة. سنكون صادقين: بعض الخطوات تقديرية، وننصحك بالرجوع إلى المصدر الرسمي للتحديثات.

ما هو Tiny-vLLM؟ شرح مبسط لمحرك الاستدلال

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة (LLM) مكتوب بلغة C++ وCUDA. يعني هذا أنه مصمم لتشغيل نماذج مثل Llama-2 أو Mistral على جهازك المحلي، مستفيداً من قوة معالجة GPU من NVIDIA. الهدف: تقديم أداء عالٍ مع استهلاك منخفض للموارد مقارنة بأطر عمل أخرى مثل vLLM أو llama.cpp.

من يحتاج Tiny-vLLM؟ ومن لا يحتاجه؟

من يحتاجه: مطور برمجيات عربي يريد تشغيل LLM محلياً على خادم أو حاسوب شخصي، خاصة في السعودية والخليج حيث الخدمات السحابية قد تكون مكلفة. مناسب لتطبيقات المحادثة، التلخيص، أو الترجمة.

من لا يحتاجه: مبتدئ لا يملك GPU من NVIDIA أو لا يعرف أساسيات C++ وCUDA. أيضاً، إذا كنت تريد حلاً جاهزاً فورياً، فكر في Ollama أو llama.cpp.

المميزات الرئيسية: سرعة، كفاءة، مفتوح المصدر

مكتوب بلغة C++ وCUDA لأداء عالٍ.
يدعم نماذج متعددة (Hugging Face format).
مفتوح المصدر بالكامل.
يعد باستهلاك ذاكرة أقل مقارنة بـ vLLM.

المتطلبات الأساسية: الأجهزة، CUDA، C++ compiler

GPU من NVIDIA مع دعم CUDA (حساب القدرة 7.0 فأعلى).
CUDA Toolkit 11.8 أو أحدث.
مترجم C++ يدعم C++17 (مثل GCC 9+).
CMake 3.20+.
نظام تشغيل Linux (اختبار على Ubuntu 22.04).

تركيب Tiny-vLLM خطوة بخطوة (ملاحظة: README غير واضح، الخطوات تقريبية)

لاحظ أن README الحالي لا يقدم تعليمات تركيب واضحة. بناءً على بنية المشروع، إليك الخطوات التقريبية:

استنساخ المستودع: git clone https://GitHub.com/jmaczan/tiny-vllm.git
إنشاء مجلد build: mkdir build && cd build
تشغيل CMake: cmake .. -DCMAKE_BUILD_TYPE=Release
بناء المشروع: make -j$(nproc)
تأكد من وجود ملف نموذج بصيغة Hugging Face في مجلد النماذج.

شرح ملف .env (إن وجد) وإعدادات API

المشروع لا يتضمن ملف .env حالياً. قد تحتاج لتعيين متغيرات بيئة مثل CUDA_VISIBLE_DEVICES لتحديد GPU.

تشغيل Tiny-vLLM وتجربة استدلال نموذج

بعد البناء، شغل الأمر التالي (تقريبي):

./tiny_vllm --model_path /path/to/model --prompt "ما هو الذكاء الاصطناعي؟"

استبدل المسار بنموذج مثل Llama-2-7B المحمل محلياً.

أخطاء شائعة وحلولها

الخطأ	السبب	الحل
CUDA error: out of memory	النموذج كبير جداً للذاكرة المتوفرة	استخدم نموذجاً أصغر أو قلل batch size
CMake Error: CUDA not found	CUDA Toolkit غير مثبت أو غير مضبوط	تأكد من تثبيت CUDA وإضافة PATH
Segmentation fault	عدم توافق النموذج أو خطأ في التحميل	جرب نموذجاً آخر أو راجع إصدار CUDA

استخدامات عملية: أمثلة تطبيقية للمطور العربي

مثال: تشغيل Tiny-vLLM على خادم صغير في السعودية لخدمة تطبيق محادثة بالعربية. يمكن استخدام نموذج مثل Jais (نموذج عربي) إذا كان متوافقاً.

هل يستحق Tiny-vLLM التجربة؟ تقييم صادق

المشروع واعد لكنه في مراحله الأولى. README غير واضح، وقد تواجه صعوبات في التركيب. إذا كنت مطوراً متمرساً وتبحث عن أداء عالٍ، جربه. للمبتدئين، ابدأ بـ llama.cpp.

بدائل مشابهة: vLLM, llama.cpp, Ollama

الأداة	اللغة	سهولة الاستخدام	الأداء
Tiny-vLLM	C++/CUDA	صعبة	عالٍ (مزعوم)
vLLM	Python/C++	متوسطة	عالٍ
llama.cpp	C++	سهلة	جيد
Ollama	Go	سهلة جداً	جيد

أسئلة شائعة (FAQ)

هل Tiny-vLLM يدعم اللغة العربية؟

يدعم أي نموذج مدعوم، لذا إذا كان النموذج يدعم العربية، فسيعمل.

ما الفرق بين Tiny-vLLM و vLLM؟

Tiny-vLLM مكتوب بلغة C++ وCUDA بشكل أساسي، بينما vLLM يعتمد على Python مع نوى C++. Tiny-vLLM يعد باستهلاك أقل للذاكرة.

هل يمكن تشغيل Tiny-vLLM بدون GPU؟

لا، يتطلب GPU من NVIDIA مع CUDA.

ما هي متطلبات الذاكرة العشوائية؟

تعتمد على النموذج. نموذج 7B يحتاج حوالي 14GB VRAM للـ FP16.

هل يدعم Tiny-vLLM نماذج Hugging Face؟

نعم، يدعم تنسيق Hugging Face.

كيف أحصل على نموذج متوافق؟

حمل نموذجاً مثل Llama-2-7B من Hugging Face بصيغة safetensors.

هل المشروع مستقر للإنتاج؟

لا، لا يزال في مرحلة مبكرة، غير موصى به للإنتاج.

أين أبلغ عن مشكلة أو خطأ؟

عبر GitHub Issues في المستودع الرسمي.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

استنساخ المستودع

لماذا؟ للحصول على شفرة المصدر

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git

الناتج: مجلد tiny-vllm

خطوة 2

إنشاء مجلد build

لماذا؟ لفصل ملفات البناء عن المصدر

كيف؟ mkdir build && cd build

الناتج: مجلد build فارغ

خطوة 3

تشغيل CMake

لماذا؟ لإعداد مشروع البناء

كيف؟ cmake .. -DCMAKE_BUILD_TYPE=Release

الناتج: ملفات Makefile

خطوة 4

بناء المشروع

لماذا؟ لتجميع الكود وإنشاء الملف التنفيذي

كيف؟ make -j$(nproc)

الناتج: ملف تنفيذي (مثل tiny_vllm)

خطوة 5

تشغيل النموذج

لماذا؟ لتجربة الاستدلال

كيف؟ ./tiny_vllm --model_path /path/to/model --prompt "ما هو الذكاء الاصطناعي؟"

الناتج: استجابة النموذج

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

أمر تشغيل أساسي

./tiny_vllm --model_path /path/to/model --prompt "نص الاستفسار"

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
CUDA error: out of memory	النموذج كبير جداً للذاكرة المتوفرة	استخدم نموذجاً أصغر (مثل 7B بدلاً من 13B) أو قلل batch size
CMake Error: CUDA not found	CUDA Toolkit غير مثبت أو غير مضبوط	تأكد من تثبيت CUDA وإضافة PATH: export PATH=/usr/local/cuda/bin:$PATH
Segmentation fault	عدم توافق النموذج أو خطأ في التحميل	جرب نموذجاً آخر أو راجع إصدار CUDA

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU NVIDIA وCUDA

إذن: اتبع خطوات التثبيت

إذا: إذا كنت مبتدئاً أو لا تملك GPU

إذن: استخدم llama.cpp أو Ollama

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: استنساخ المستودع وتثبيت المتطلبات
اليوم 2: بناء المشروع وحل أخطاء CMake
اليوم 3: تحميل نموذج Llama-2-7B من Hugging Face
اليوم 4: تشغيل النموذج واختبار استدلال بسيط
اليوم 5: تجربة أوامر مختلفة وتحليل الأداء
اليوم 6: مقارنة مع llama.cpp من حيث السرعة والذاكرة
اليوم 7: توثيق التجربة ومشاركتها

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. يتطلب GPU NVIDIA مع قدرة حسابية 7.0+

2. يدعم نماذج Hugging Face بصيغة safetensors

3. مكتوب بلغة C++ وCUDA

4. يعد باستهلاك ذاكرة أقل من vLLM

5. المشروع في مرحلة مبكرة وغير مستقر للإنتاج

6. README غير واضح والخطوات تقريبية

7. مناسب للمطورين المتمرسين فقط

8. بدائل أسهل: llama.cpp وOllama

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل Tiny-vLLM يدعم اللغة العربية؟

يدعم أي نموذج مدعوم، لذا إذا كان النموذج يدعم العربية فسيعمل.

ما الفرق بين Tiny-vLLM و vLLM؟

Tiny-vLLM مكتوب بلغة C++ وCUDA بشكل أساسي، بينما vLLM يعتمد على Python مع نوى C++. Tiny-vLLM يعد باستهلاك أقل للذاكرة.

هل يمكن تشغيل Tiny-vLLM بدون GPU؟

لا، يتطلب GPU من NVIDIA مع CUDA.

ما هي متطلبات الذاكرة العشوائية؟

تعتمد على النموذج. نموذج 7B يحتاج حوالي 14GB VRAM للـ FP16.

هل يدعم Tiny-vLLM نماذج Hugging Face؟

نعم، يدعم تنسيق Hugging Face.

كيف أحصل على نموذج متوافق؟

حمل نموذجاً مثل Llama-2-7B من Hugging Face بصيغة safetensors.

هل المشروع مستقر للإنتاج؟

لا، لا يزال في مرحلة مبكرة، غير موصى به للإنتاج.

أين أبلغ عن مشكلة أو خطأ؟

عبر GitHub Issues في المستودع الرسمي.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

محرك استدلال (Inference Engine)

برنامج يقوم بتشغيل نموذج LLM لإنتاج ردود بناءً على مدخلات المستخدم.

CUDA

منصة حوسبة متوازية من NVIDIA تسمح باستخدام GPU لتسريع العمليات الحسابية.

VRAM

ذاكرة الوصول العشوائي للبطاقة الرسومية، تستخدم لتخزين النموذج أثناء التشغيل.

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

كيفية تثبيت Tiny-vLLM على UbuntuTiny-vLLM vs llama.cpp مقارنةتشغيل نموذج عربي على Tiny-vLLMحل مشكلة CUDA out of memory في Tiny-vLLMأفضل نماذج LLM متوافقة مع Tiny-vLLM

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من متشكك في قدرته على تشغيل LLM محلياً إلى مطور جرب Tiny-vLLM وفهم إمكانياته وقيوده.

حوسبة GPU
برمجة C++
تحسين أداء النماذج
التعلم الآلي على الحافة

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لمطوري LLM المحترفين، لكنه ليس جاهزاً للجميع. إذا كنت تملك GPU NVIDIA وتجيد C++، جربه. وإلا، فابدأ بأدوات أسهل مثل Ollama. تذكر: README غير واضح، لذا اعتمد على هذا الدليل والمصدر الرسمي. شاركنا تجربتك في التعليقات!

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحديث خطوات التثبيت إذا تغير README
إضافة نماذج جديدة مدعومة
مراجعة الأخطاء الشائعة بناءً على تقارير المستخدمين

[Object]

كاتب في Ficus Web | تقرير إخباري وقصة قصيرة

#تقنية #دليل عربي #محرك استدلال #C #CUDA #GPU #Hacker News #LLM inference #NVIDIA #Tiny-vLLM

Tiny-vLLM: دليل عملي لمحرك استدلال LLM عالي الأداء بلغة C++ وCUDA

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟ شرح مبسط لمحرك الاستدلال

من يحتاج Tiny-vLLM؟ ومن لا يحتاجه؟

المميزات الرئيسية: سرعة، كفاءة، مفتوح المصدر

المتطلبات الأساسية: الأجهزة، CUDA، C++ compiler

تركيب Tiny-vLLM خطوة بخطوة (ملاحظة: README غير واضح، الخطوات تقريبية)

شرح ملف .env (إن وجد) وإعدادات API

تشغيل Tiny-vLLM وتجربة استدلال نموذج

أخطاء شائعة وحلولها

استخدامات عملية: أمثلة تطبيقية للمطور العربي

هل يستحق Tiny-vLLM التجربة؟ تقييم صادق

بدائل مشابهة: vLLM, llama.cpp, Ollama

أسئلة شائعة (FAQ)

هل Tiny-vLLM يدعم اللغة العربية؟

ما الفرق بين Tiny-vLLM و vLLM؟

هل يمكن تشغيل Tiny-vLLM بدون GPU؟

ما هي متطلبات الذاكرة العشوائية؟

هل يدعم Tiny-vLLM نماذج Hugging Face؟

كيف أحصل على نموذج متوافق؟

هل المشروع مستقر للإنتاج؟

أين أبلغ عن مشكلة أو خطأ؟

Playbook التطبيق

استنساخ المستودع

إنشاء مجلد build

تشغيل CMake

بناء المشروع

تشغيل النموذج

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

مقالات ذات صلة

التعليقات (0)