استدلال • 30 مايو 2026 • • —

دليل تركيب وتشغيل Tiny-vLLM

📑 محتويات المقال

Reference OS v85 دقائق قراءة٣٠ مايو ٢٠٢٦informational: فهم أداة تقنية جديدة وتقييم فائدتها وطريقة تجربتها

دليل تركيب وتشغيل Tiny-vLLM

بعد قراءة هذا الدليل، ستتمكن من تثبيت وتشغيل Tiny-vLLM على جهازك باستخدام GPU NVIDIA، مع معرفة الأخطاء الشائعة وحلولها.

الخلاصة: Tiny-vLLM محرك استدلال LLM مكتوب بلغة C++/CUDA، README غير واضح. يتطلب Linux، GPU NVIDIA (Compute Capability 7.0+)، CUDA 11.8+، CMake 3.20+. التركيب عبر git clone, cmake, make. الأداء غير معروف بعد، المشروع تجريبي. مناسب للمطورين ذوي الخبرة.

Tiny-vLLM دليل تركيب555 كلمة تقريباًزارو — مكتبة الأدلة العملية

LIVE PROJECTjmaczan/tiny-vllm★ 0

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

رابط المشروع على GitHub ↗

MAP

خريطة الصفحة

اختر القسم الذي تحتاجه الآن

ما هو Tiny-vLLM؟
المتطلبات الأساسية
التركيب خطوة بخطوة (مقترح بناءً على تحليل الكود)
تشغيل Tiny-vLLM وتجربة الاستدلال
مقارنة أداء مع llama.cpp وvLLM
الأخطاء الشائعة وحلولها
استخدامات عملية في السوق السعودي/الخليجي
هل يستحق التجربة؟ تقييم صريح

قبل أن تطبق

الفكرة التي تمنع التسرع

تريد تشغيل LLM محلياً بأداء عالٍ دون دفع فواتير سحابية؟ Tiny-vLLM قد يكون الحل، لكن README غير واضح وقد تضيع ساعات في التركيب.

أسئلة التشخيص السريع

قبل أن تطبق، اعرف أين تقف بالضبط

هل لديك GPU NVIDIA مع Compute Capability 7.0 أو أعلى؟
هل أنت على دراية ببناء مشاريع C++ من المصدر؟
هل جربت llama.cpp أو vLLM من قبل؟
هل تحتاج إلى أداء استدلال عالٍ دون خدمات سحابية؟
هل أنت مستعد لمواجهة أخطاء التثبيت بسبب README غير الواضح؟
هل تخطط لاستخدام Tiny-vLLM في الإنتاج أم للتجربة فقط؟
هل لديك نموذج LLM جاهز (مثل GPT-2) بصيغة Hugging Face أو GGUF؟

نظام التشغيل: Input → Process → Output

INPUT

نموذج لغة (مثلاً GPT-2) بصيغة Hugging Face أو GGUF

PROCESS

استدلال عالي الأداء عبر C++ وCUDA على GPU

OUTPUT

نص مولد أو تضمينات (embeddings)

Decision Layer

اختيار النموذج، حجم الدفعة (batch size)، طول التوليد

Memory Layer

إدارة ذاكرة GPU لتجنب نفادها

Feedback Loop

قياس زمن الاستدلال وضبط المعلمات لتحسين الأداء

لوحة قياس النجاح

لا تعتمد على الانطباع؛ اختر مؤشراً تراجعه

المؤشر	طريقة القياس	إشارة جيدة
سرعة الاستدلال (tokens/sec)	تشغيل النموذج مع --max-tokens 100 وقياس الزمن	أكثر من 50 tok/s لنموذج 7B على RTX 3090
زمن التثبيت	من بداية git clone حتى انتهاء make	أقل من 30 دقيقة
استخدام الذاكرة (VRAM)	مراقبة nvidia-smi أثناء التشغيل	لا يتجاوز 80% من VRAM المتاحة

هل سبق لك أن أردت تشغيل نموذج لغة كبير (LLM) على جهازك الخاص بأداء عالٍ، دون الاعتماد على الخدمات السحابية المكلفة؟ مشروع Tiny-vLLM يعد بذلك، لكن README الخاص به غير واضح، مما قد يمنع الكثيرين من تجربته. في هذا الدليل، ستتعلم كيفية تركيب وتشغيل Tiny-vLLM خطوة بخطوة، مع خطوات مقترحة بناءً على تحليل الكود، وتقييم أدائه، ومعرفة ما إذا كان مناسباً لمشروعك. سأشرح لك المشروع كما لو كنت تتعلم من زميل: بصراحة، مع ذكر القيود والمخاطر. إذا كنت مطوراً عربياً تبحث عن أداء استدلال عالٍ دون الاعتماد على الخدمات السحابية، فهذا الدليل لك.

ما هو Tiny-vLLM؟

Tiny-vLLM هو محرك استدلال (inference engine) لنماذج اللغة الكبيرة (LLMs)، مكتوب بلغة C++ وCUDA. الهدف منه هو تقديم أداء استدلال عالٍ مع تحكم كامل في الأجهزة. الفكرة مشابهة لـ llama.cpp لكن مع تركيز على تسريع GPU عبر CUDA. المشروع لا يزال في مراحله الأولى، لكنه واعد. من يحتاج Tiny-vLLM؟ المطورون الذين لديهم GPU (NVIDIA) ويريدون تشغيل نماذج LLM محلياً بأداء عالٍ دون تكاليف سحابية. مناسب للتجارب والتطبيقات الصغيرة. لا يناسب: المبتدئين الذين ليس لديهم خبرة في بناء مشاريع C++ من المصدر، أو من يريدون حلاً جاهزاً فورياً. أيضاً غير مناسب للإنتاج دون اختبارات أوسع.

المتطلبات الأساسية

نظام تشغيل: Linux (موصى به) أو Windows مع WSL
GPU NVIDIA مع CUDA Compute Capability 7.0+ (مثل RTX 20xx فما فوق)
CUDA Toolkit 11.8+
C++ compiler يدعم C++17 (GCC 9+, Clang 10+)
CMake 3.20+
مكتبات: cuBLAS, cuDNN (اختياري للتسريع)

التركيب خطوة بخطوة (مقترح بناءً على تحليل الكود)

تحذير: README غير واضح، لذا الخطوات التالية مقترحة بناءً على تحليل بنية المشروع. قد تحتاج لتعديلها. لم يتم اختبارها فعلياً، لذا قد تواجه أخطاء.

استنساخ المستودع: git clone https://github.com/jmaczan/tiny-vllm.git
الدخول إلى المجلد: cd tiny-vllm
إنشاء مجلد البناء: mkdir build && cd build
تشغيل CMake: cmake .. -DCMAKE_BUILD_TYPE=Release -DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda
بناء المشروع: make -j$(nproc)
بعد البناء، سيكون هناك ملف تنفيذي (مثل tiny_vllm).

تشغيل Tiny-vLLM وتجربة الاستدلال

بعد البناء، يمكنك تشغيل المحرك على نموذج. مثال (مقترح، لم يتم اختباره): ./tiny_vllm --model /path/to/model --prompt "مرحباً" --max-tokens 100. قد تحتاج لتحميل نموذج بصيغة Hugging Face أو GGUF. جرب مع نموذج صغير مثل GPT-2. لاحظ أن الأمر الفعلي قد يختلف.

مقارنة أداء مع llama.cpp وvLLM

الأداة	اللغة	التسريع	الاستقرار	الأداء (نموذج 7B على RTX 3090)
llama.cpp	C++	CPU/GPU	مستقر	~50 tok/s
vLLM	Python	GPU	مستقر	~80 tok/s
Tiny-vLLM	C++/CUDA	GPU	تجريبي	غير معروف (لم يتم اختباره)

ملاحظة: الأرقام تقريبية وقد تختلف حسب الإعدادات.

الأخطاء الشائعة وحلولها

الخطأ	السبب	الحل
nvcc: command not found	CUDA غير مثبت أو غير مضاف للمسار	تأكد من تثبيت CUDA وإضافة PATH
CUDA error: no kernel image	GPU لا يدعم إصدار CUDA المستخدم	استخدم CUDA 11.8 أو أقل
CMake Error: CUDA not found	لم يتم العثور على CUDA	حدد المسار: -DCUDA_TOOLKIT_ROOT_DIR
Segmentation fault	نفاد ذاكرة GPU	قلل حجم النموذج أو استخدم batch size أصغر

استخدامات عملية في السوق السعودي/الخليجي

تشغيل مساعد ذكاء اصطناعي محلي للشركات الصغيرة دون اشتراكات سحابية
تطوير تطبيقات محادثة بالعربية بسرعات عالية
اختبار نماذج LLM قبل نشرها على خوادم أكبر

هل يستحق التجربة؟ تقييم صريح

إذا كنت مطوراً لديه GPU قوي وترغب في تجربة محرك استدلال سريع، فجربه. لكن لا تتوقع استقراراً إنتاجياً. README غير واضح، لذا ستحتاج لبعض الجهد. المشروع واعد لكنه في مراحله الأولى.

Playbook التطبيق

خطوات عملية مرتبة من التشخيص إلى النتيجة

خطوة 1

استنساخ المستودع

لماذا؟ للحصول على الكود المصدري للمشروع

كيف؟ git clone https://github.com/jmaczan/tiny-vllm.git

الناتج: مجلد tiny-vllm يحتوي على الكود

خطوة 2

تثبيت المتطلبات الأساسية

لماذا؟ لضمان توفر الأدوات اللازمة للبناء

كيف؟ تثبيت CUDA Toolkit 11.8+، CMake 3.20+، ومترجم C++17 (GCC 9+). تحقق من التوافق مع GPU.

الناتج: بيئة بناء جاهزة

خطوة 3

بناء المشروع

لماذا؟ لتجميع الكود وإنشاء ملف تنفيذي

كيف؟ mkdir build && cd build && cmake .. -DCMAKE_BUILD_TYPE=Release -DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda && make -j$(nproc)

الناتج: ملف تنفيذي (مثل tiny_vllm) في مجلد build

خطوة 4

تشغيل النموذج

لماذا؟ لتجربة الاستدلال

كيف؟ ./tiny_vllm --model /path/to/model --prompt "مرحباً" --max-tokens 100 (الأمر مقترح، قد يختلف)

الناتج: مخرجات النموذج

TMP

قوالب جاهزة للنسخ

حوّل القراءة إلى تنفيذ سريع

أمر تشغيل أساسي

./tiny_vllm --model /path/to/model --prompt "نص الاستفسار" --max-tokens 50

أمر بناء مع CUDA مخصص

cmake .. -DCMAKE_BUILD_TYPE=Release -DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda-11.8

ERR

مصفوفة الأخطاء

اعرف أين يتعثر الناس وكيف تتجنب ذلك

الخطأ	لماذا يحدث؟	التصحيح
nvcc: command not found	CUDA غير مثبت أو غير مضاف للمسار	تثبيت CUDA وإضافة PATH: export PATH=/usr/local/cuda/bin:$PATH
CUDA error: no kernel image	GPU لا يدعم إصدار CUDA المستخدم	استخدم CUDA 11.8 أو أقل، أو تحقق من Compute Capability
CMake Error: CUDA not found	لم يتم العثور على CUDA	حدد المسار: -DCUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda
Segmentation fault	نفاد ذاكرة GPU	قلل حجم النموذج أو استخدم batch size أصغر

شجرة القرار

ماذا تفعل حسب حالتك؟

إذا: إذا كان لديك GPU NVIDIA مع Compute Capability 7.0+

إذن: إذن يمكنك متابعة التثبيت

إذا: إذا كنت مبتدئاً في بناء C++

إذن: إذن ابدأ بـ llama.cpp الأسهل

إذا: إذا كنت تحتاج استقراراً إنتاجياً

إذن: إذن استخدم vLLM بدلاً من Tiny-vLLM

إذا: إذا واجهت خطأ في البناء

إذن: إذن راجع mistake_matrix أو ابحث في Issues المشروع

خطة تطبيق 7 أيام

جدول صغير يمنع التسويف

اليوم 1: تثبيت المتطلبات (CUDA, CMake, GCC)
اليوم 2: استنساخ المستودع وبناء المشروع
اليوم 3: تحميل نموذج صغير (مثل GPT-2) وتشغيله
اليوم 4: اختبار أوامر مختلفة وتوثيق الأخطاء
اليوم 5: مقارنة الأداء مع llama.cpp
اليوم 6: تجربة نموذج عربي صغير إن وجد
اليوم 7: كتابة تقرير التجربة ونشره

FACT

حقائق سريعة تحفظها

نقاط مختصرة ترجع لها لاحقاً

1. Tiny-vLLM مكتوب بلغة C++ وCUDA

2. يتطلب GPU NVIDIA مع Compute Capability 7.0+

3. التركيب عبر CMake و make

4. README غير واضح، قد تحتاج لتعديل أوامر البناء

5. المشروع تجريبي وغير مستقر للإنتاج

6. الأداء غير معروف بعد، لكنه يعد بسرعة عالية

7. مناسب للمطورين ذوي الخبرة في C++ وCUDA

8. يمكن استخدامه لتشغيل نماذج LLM محلياً دون سحابة

FAQ

أسئلة شائعة

إجابات مباشرة على ما يبحث عنه الزائر

هل يمكن تشغيل Tiny-vLLM على Windows؟

نعم، عبر WSL (Windows Subsystem for Linux) مع تثبيت CUDA داخل WSL.

ما هي صيغ النماذج المدعومة؟

غير موثق بشكل واضح، لكن يبدو أنه يدعم صيغة Hugging Face وربما GGUF.

هل Tiny-vLLM أسرع من llama.cpp؟

غير معروف بعد، لكنه يستخدم CUDA مباشرة مما قد يعطيه أفضلية على GPU.

ماذا أفعل إذا فشل البناء؟

تحقق من إصدارات CUDA وCMake، وراجع mistake_matrix، أو ابحث في Issues المشروع.

ABC

مصطلحات سريعة

تعريفات مختصرة تمنع الالتباس

CUDA

منصة حوسبة متوازية من NVIDIA لتسريع العمليات على GPU

Compute Capability

رقم إصدار يحدد ميزات GPU المدعومة من CUDA

CMake

أداة لإدارة عملية بناء المشاريع البرمجية

GGUF

صيغة ملفات لنماذج LLM محسنة للتشغيل المحلي

Q+

أسئلة مرتبطة يبحث عنها الناس

استخدمها كمسارات متابعة داخل نفس الموضوع

كيفية تثبيت Tiny-vLLM على Ubuntuمقارنة Tiny-vLLM مع llama.cppأفضل نماذج LLM للتشغيل المحليحل مشكلة CUDA not found في Tiny-vLLMتشغيل LLM على GPU NVIDIA مجاناً

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

تحول القارئ: من مطور يتردد في تجربة مشاريع GitHub الجديدة إلى قادر على تقييم وتشغيل Tiny-vLLM بثقة

تحسين أداء GPU
إدارة ذاكرة GPU
بناء مشاريع C++ من المصدر

SAVE

كيف تستخدم هذا المرجع لاحقاً؟

القيمة الحقيقية تظهر عند العودة والتطبيق

لا تتعامل معه كمقال يُقرأ مرة واحدة. استخدمه كلوحة تشغيل: ارجع للتشخيص عند ظهور المشكلة، وللقوالب عند التطبيق، ولمؤشرات القياس عند المراجعة.

Tiny-vLLM مشروع واعد لمطوري LLM الذين يريدون أداءً عالياً وتحكماً كاملاً. README غير واضح، لكن مع هذا الدليل يمكنك تجربته. لا تتوقع استقراراً إنتاجياً، لكنه خطوة جيدة لاستكشاف أدوات جديدة. جربه وأخبرنا بتجربتك في التعليقات.

UPD

خطة تحديث هذا الدليل

حتى يبقى المرجع صالحاً مع الوقت

تحقق من تحديثات المستودع كل أسبوعين
تحديث أوامر البناء إذا تغيرت بنية المشروع
إضافة نماذج جديدة مدعومة
تحديث mistake_matrix بناءً على أخطاء جديدة

[Object]

كاتب في Ficus Web | تقرير إخباري وقصة قصيرة

#استدلال #تركيب #دليل #محرك #C #CUDA #GPU #LLM #NVIDIA #Tiny-vLLM

دليل تركيب وتشغيل Tiny-vLLM

دليل تركيب وتشغيل Tiny-vLLM

خريطة الصفحة

قبل أن تطبق

أسئلة التشخيص السريع

نظام التشغيل: Input → Process → Output

لوحة قياس النجاح

ما هو Tiny-vLLM؟

المتطلبات الأساسية

التركيب خطوة بخطوة (مقترح بناءً على تحليل الكود)

تشغيل Tiny-vLLM وتجربة الاستدلال

مقارنة أداء مع llama.cpp وvLLM

الأخطاء الشائعة وحلولها

استخدامات عملية في السوق السعودي/الخليجي

هل يستحق التجربة؟ تقييم صريح

Playbook التطبيق

استنساخ المستودع

تثبيت المتطلبات الأساسية

بناء المشروع

تشغيل النموذج

قوالب جاهزة للنسخ

مصفوفة الأخطاء

شجرة القرار

خطة تطبيق 7 أيام

حقائق سريعة تحفظها

أسئلة شائعة

مصطلحات سريعة

أسئلة مرتبطة يبحث عنها الناس

لماذا هذا المرجع يتجاوز الموضوع نفسه؟

كيف تستخدم هذا المرجع لاحقاً؟

خطة تحديث هذا الدليل

مقالات ذات صلة

التعليقات (0)