تقليل تكلفة LLMs بنسبة 97% باستهلاك Tokens أقل

x32x01 · 31 ديسمبر 2025

كنت شغال على جزء Optimization لتقليل استهلاك الـ tokens في مشروع بيعتمد على LLMs
الموديل المستخدم كان gpt-5.1، والبروجيكت عبارة عن AI Chat Agents الناس بتدخل تكلمه 💬
الصدمة؟

من 5000 token للرسالة
لـ 80 ~ 150 token بس 😳

يعني الفاتورة:

من 5000$
لـ 115$ فقط

📉 Cost Reduction = 97.7%

🔍 المشكلة ظهرت فين؟

وأنا ببص على الـ logs لاحظت حاجة مرعبة 😱
أي رسالة من اليوزر حتى: "سلام عليكم"
كانت بتستهلك 5000 token 🤯
قلت أكيد:

الـ prompt بايظ؟ ❌
الـ RAG results؟ ❌ (تمام وزي الفل)

فاضل إيه؟ الـ AI Agent نفسه.

🛠️ الصدمة: 50 Tool شغالين مع كل رسالة

دخلت أعمل Debugging ولقيت إن الـ agent عنده:

50 Tool
كل Tool فيها:
- title
- description
- input schema

وكل ده داخل الـ context window في كل رسالة ❌ حتى لو اليوزر كتب كلمة واحدة!

❓ طب نعمل إيه من غير ما نمسح الـ Tools؟

أنا موافق أستخدم الـ 50 Tool كلهم
بس مش موافق يدخلوا كلهم مع كل رسالة 😅
رجعت بقى للصح:

Papers
Research
Articles

ولقيت حل ذكي جدًا معمول قبل كده.

🧠 الحل الذكي: Tools Metadata تدخل RAG مش Context

الفكرة ببساطة 👇
بدل ما:

title
description

بتوع الـ Tools يدخلوا مباشرة في الـ context window
نعملهم: Embedding 👉 وندخلهم في RAG 👉
يعني:

الـ Agent مش شايف كل الـ Tools طول الوقت
بيشوف بس اللي محتاجه فعلًا

🔮 طب الـ Agent هيعرف يستخدم أنهي Tool إزاي؟

قبل ما نخلق الـ Agent نفسه، بنضيف خطوة صغيرة جدًا ⚡
اسمها: Tool Prediction 👉
الجزء ده:

بياخد رسالة اليوزر
يتوقع أنهي Tools محتاجها

✨ مثال بسيط

🟢 رسالة:"سلام عليكم" الـ prediction model هيقول:

محتاج Tools؟ ❌
عدد Tools = 0

فالـ agent يشتغل بالـ context الأساسي فقط ➡️ ~90 token

🟢 رسالة:"عايز أعرف انتوا مين وتفاصيلكم" الـ prediction هيقول:

محتاج Tool اسمها مثلًا: retrieve_knowledge

ساعتها:

يستخدم Tool واحدة بس
الاستهلاك يوصل لـ ~150 token
مش 5000 😎

💻 مثال توضيحي (Pseudo Code)

Python:

user_message = "سلام عليكم"

predicted_tools = predict_tools(user_message)

if len(predicted_tools) == 0:
    run_agent(context_only=True)
else:
    run_agent(
        context_only=False,
        tools=predicted_tools
    )

الفكرة بسيطة… لكن تأثيرها على التكلفة ضخم جدًا 💰

🚀 النتيجة النهائية

نفس الموديل
نفس الجودة
نفس الـ Tools

لكن:

Tokens أقل
Performance أحسن
فاتورة أقل بكتير 🔥

🔚 الخلاصة

أكبر استهلاك tokens مش دايمًا من الـ prompt
Tools الكتير ممكن تدمّر الميزانية
Tool Prediction + RAG = حل عبقري
Optimization مش رفاهية… ده ضرورة

💬 حبيت أشارك التجربة يمكن حد يستفاد
ولو عندك حالة شبه كده أو مشكلة في استهلاك الـ tokens
شاركنا 👇 يمكن نطلع بحل أذكى 💡

تقليل تكلفة LLMs بنسبة 97% باستهلاك Tokens أقل

🔍 المشكلة ظهرت فين؟​

🛠️ الصدمة: 50 Tool شغالين مع كل رسالة​

❓ طب نعمل إيه من غير ما نمسح الـ Tools؟​

🧠 الحل الذكي: Tools Metadata تدخل RAG مش Context​

🔮 طب الـ Agent هيعرف يستخدم أنهي Tool إزاي؟​

✨ مثال بسيط​

💻 مثال توضيحي (Pseudo Code)​

🚀 النتيجة النهائية​

🔚 الخلاصة​