أفضل مولد صور AI: ميزات GPT-4.1 الجديدة من OpenAI

4/16/2025

#مولد صور AI#تكنولوجيا#OpenAI

في وقت مبكر من صباح اليوم، أصدرت OpenAI مجموعة جديدة من النماذج تحت اسم GPT-4.1.[IMAGE_0] تشمل هذه المجموعة ثلاثة نماذج، وهي GPT-4.1 وGPT-4.1 mini وGPT-4.1 nano، التي يمكن الوصول إليها فقط من خلال واجهة برمجة التطبيقات (API)، وقد تم فتحها لجميع المطورين. توفر هذه المجموعة من النماذج أداءً مماثلاً أو أقوى في العديد من الوظائف الرئيسية، مع تقليل التكلفة والوقت. لذلك، ستبدأ OpenAI في إيقاف النسخة التجريبية من GPT-4.5 بعد ثلاثة أشهر (14 يوليو 2025) لمنح المطورين وقتًا للتكيف. وأوضحت OpenAI أن أداء هذه النماذج الثلاثة يتفوق بشكل شامل على GPT-4o وGPT-4o mini، مع تحسينات ملحوظة في البرمجة والامتثال للتعليمات. تتمتع هذه النماذج أيضًا بنافذة سياق أكبر - تدعم حتى مليون توكن من السياق، وتستفيد بشكل أفضل من هذه السياقات من خلال تحسين الفهم للسياق الطويل. تم تحديث تاريخ انتهاء المعرفة إلى يونيو 2024. بشكل عام، حققت GPT-4.1 أداءً ممتازًا في المعايير القياسية التالية: البرمجة: سجلت GPT-4.1 54.6% في اختبار SWE-bench Verified، بزيادة قدرها 21.4% مقارنة بـ GPT-4o و26.6% مقارنة بـ GPT-4.5، مما يجعلها النموذج الرائد في البرمجة. الامتثال للتعليمات: حصلت GPT-4.1 على 38.3% في اختبار MultiChallenge من Scale، الذي يقيس القدرة على الامتثال للتعليمات، بزيادة قدرها 10.5% مقارنة بـ GPT-4o. السياق الطويل: في اختبار Video-MME لفهم السياق الطويل متعدد الوسائط، حققت GPT-4.1 سجلًا جديدًا مع تصنيف 72.0% في التقييم الخالي من العناوين، بزيادة قدرها 6.7% مقارنة بـ GPT-4o. وعلى الرغم من نجاح هذه الاختبارات، ركزت OpenAI على الاستخدام العملي عند تدريب هذه النماذج. من خلال التعاون الوثيق والشراكات مع مجتمع المطورين، قامت OpenAI بتحسين هذه النماذج لتناسب المهام الأكثر صلة بتطبيقات المطورين. لذلك، توفر سلسلة نماذج GPT-4.1 أداءً رائعًا بتكلفة أقل. حققت هذه النماذج تحسينات في الأداء عند كل نقطة في منحنى التأخير.[IMAGE_1]

حقق GPT-4.1 mini نقلة نوعية في أداء النماذج الصغيرة، حيث تفوق في العديد من اختبارات الأداء على GPT-4o. يوازي أداء هذا النموذج في التقييمات الذكية أداء GPT-4o أو يتجاوزه، مع تقليل التأخير تقريبًا إلى النصف وتخفيض التكلفة بنسبة 83%. يعد GPT-4.1 nano أسرع وأرخص نموذج من OpenAI حتى الآن. كما أن هذا النموذج يحتوي على نافذة سياق تصل إلى مليون توكن، مما يتيح له تقديم أداء متميز حتى في الأحجام الصغيرة، حيث سجل 80.1% في اختبار MMLU و50.3% في اختبار GPQA و9.8% في اختبار الترميز متعدد اللغات Aider، متجاوزًا حتى GPT-4o mini. يعتبر هذا النموذج خيارًا مثاليًا لمهام مثل التصنيف أو الإكمال التلقائي. كما أن التحسينات في موثوقية الامتثال للتعليمات وفهم السياق الطويل تجعل نموذج GPT-4.1 أكثر كفاءة في دفع الوكلاء الذكيين (الأنظمة التي يمكنها إكمال المهام نيابةً عن المستخدم بشكل مستقل). بالتعاون مع واجهة برمجة التطبيقات مثل Responses API، يمكن للمطورين الآن إنشاء وكلاء أكثر فائدة وموثوقية في هندسة البرمجيات الحقيقية، واستخراج الأفكار من الوثائق الكبيرة، ومعالجة طلبات العملاء بأقل قدر من التدخل اليدوي، بالإضافة إلى تنفيذ مهام معقدة أخرى. في الوقت نفسه، من خلال تحسين كفاءة أنظمة التفكير، تمكنت OpenAI من تخفيض أسعار سلسلة GPT-4.1. كان متوسط تكلفة الاستفسارات لـ GPT-4.1 أقل بنسبة 26% من GPT-4o، في حين أن GPT-4.1 nano هو أرخص وأسرع نموذج قدمته OpenAI حتى الآن. بالنسبة للاستفسارات التي تتطلب إرسال نفس السياق عدة مرات، قامت OpenAI بزيادة خصم التخزين الفوري لنموذج السلسلة الجديدة من 50% إلى 75%. بالإضافة إلى ذلك، تقدم OpenAI طلبات السياق الطويل إلى جانب التكلفة القياسية لكل توكن، دون الحاجة إلى دفع رسوم إضافية.[IMAGE_2]

صرح الرئيس التنفيذي لشركة OpenAI، سام ألتمان، أن GPT-4.1 لا يُظهر فقط أداءً ممتازًا في اختبارات الأداء، بل يركز أيضًا على الفائدة العملية في العالم الحقيقي، مما يجب أن يسعد المطورين.[IMAGE_3]

يبدو أن OpenAI قد حققت تفوقًا في قدرات نموذجها تحت شعار "4.10﹥4.5".[IMAGE_4]

المصدر: https://x.com/stevenheidel/status/1911833398588719274 البرمجة لقد تفوق GPT-4.1 بشكل ملحوظ على GPT-4o في العديد من مهام الترميز، بما في ذلك حل مهام الترميز من قبل الوكلاء، البرمجة الأمامية، تقليل التحريرات غير ذات الصلة، الامتثال الموثوق لتنسيق diff، وضمان تماسك استخدام الأدوات. في اختبار SWE-bench Verified الذي يقيس مهارات البرمجة في العالم الحقيقي، أكمل GPT-4.1 54.6% من المهام، بينما أكمل GPT-4o (2024-11-20) 33.2%. يعكس ذلك تحسين قدرات النموذج في استكشاف مكتبات الشيفرة، إكمال المهام، وتوليد الشيفرة القابلة للتنفيذ والتي تمر بالاختبارات.[IMAGE_5]

بالنسبة لمطوري واجهة برمجة التطبيقات الذين يحتاجون لتحرير ملفات كبيرة، أصبح GPT-4.1 أكثر موثوقية في معالجة اختلافات الشيفرة بمختلف التنسيقات. في اختبار الاختلافات متعددة اللغات من Aider، كانت نتيجة GPT-4.1 أكثر من ضعف نتيجة GPT-4o، وأعلى بمعدل 8% من GPT-4.5. تقيس هذه التقييمات قدرة النموذج على الترميز عبر لغات برمجة متعددة والقدرة على توليد تغييرات في الشيفرة في الشكلين الكلي وdiff. تم تدريب GPT-4.1 خصيصًا ليكون أكثر موثوقية في الامتثال لتنسيق diff، مما يسمح للمطورين بإخراج أسطر التغييرات فقط دون الحاجة إلى إعادة كتابة الملف بالكامل، مما يوفر التكاليف والتأخيرات. في الوقت نفسه، للمطورين الذين يفضلون إعادة كتابة الملف بالكامل، قامت OpenAI بزيادة حد توكنات إخراج GPT-4.1 إلى 32,768 توكن (أكثر من 16,384 توكن لـ GPT-4o). كما أوصت OpenAI باستخدام مخرجات التوقع لتقليل تأخيرات إعادة كتابة الملفات الكاملة.[IMAGE_6]

حقق GPT-4.1 أيضًا تحسينات ملحوظة في البرمجة الأمامية، حيث يمكنه إنشاء تطبيقات ويب أكثر قوة وجمالًا. في مقارنة مباشرة، أظهرت نتائج التقييم التي أجراها مقيمون بشريون أن 80% من التقييمات كانت تصب في صالح المواقع التي أنشأها GPT-4.1 مقارنة بتلك التي أنشأها GPT-4o.[IMAGE_7]

بخلاف معايير الأداء المذكورة، يُظهر GPT-4.1 أداءً أفضل في الامتثال للتنسيق، وزيادة موثوقية وتقليل تكرار التحريرات غير ذات الصلة. في التقييمات الداخلية من OpenAI، انخفضت التحريرات غير ذات الصلة في الشيفرة من 9% في GPT-4o إلى 2% في GPT-4.1.

الامتثال للتعليمات يمكن لـ GPT-4.1 الامتثال للتعليمات بشكل أكثر موثوقية، وقد أحرزت تحسينات ملحوظة في تقييمات الامتثال للتعليمات المختلفة. قامت OpenAI بتطوير نظام تقييم داخلي تتبع فيه أداء النموذج عبر العديد من الأبعاد والفئات الأساسية لتنفيذ التعليمات، بما في ذلك: الامتثال للتنسيق. تقديم التعليمات، وتحديد التنسيق المخصص لردود النموذج، مثل XML وYAML وMarkdown وما إلى ذلك. التعليمات السلبية. تحديد السلوكيات التي ينبغي على النموذج تجنبها، مثل "لا تطلب من المستخدم الاتصال بفريق الدعم". التعليمات المتسلسلة. تقديم مجموعة من التعليمات التي يجب على النموذج اتباعها بالترتيب المحدد، مثل "اسأل أولاً عن اسم المستخدم، ثم اسأل عن عنوان بريدهم الإلكتروني". متطلبات المحتوى. إخراج محتوى يتضمن معلومات معينة مثل "عند كتابة خطة غذائية، تأكد من تضمين محتوى البروتين". التصنيف. تصنيف المخرجات بطرق معينة، مثل "ترتيب الاستجابات حسب عدد السكان". الثقة المفرطة. توجيه النموذج للإجابة بـ "لا أعلم" أو ما شابه عند عدم توفر المعلومات المطلوبة أو إذا كان الطلب لا ينتمي إلى الفئة المعطاة، مثل "إذا لم تكن تعرف الإجابة، يرجى تقديم عنوان بريد دعم". تم تطوير هذه الفئات بناءً على تعليقات المطورين، مما يوضح أي من الامتثال للتعليمات هو الأكثر صلة وأهمية بالنسبة لهم. في كل فئة، قسمت OpenAI هذه إلى تعليمات بسيطة ومتوسطة وصعبة. أظهر GPT-4.1 أداءً ممتازًا بشكل خاص في التعليمات الصعبة.[IMAGE_8]

يعتبر الامتثال المتعدد للدورات أمرًا حيويًا للعديد من المطورين. من الأهمية بمكان أن يحتفظ النموذج بالتسلسل ويراقب محتوى الإدخال السابق للمستخدم. أظهر GPT-4.1 قدرة أفضل على التعرف على المعلومات من الرسائل السابقة في الحوار، مما مكنه من تحقيق محادثات أكثر طبيعية. ويعتبر اختبار MultiChallenge من Scale مقياس فعال لقياس هذه القدرة، حيث أظهر GPT-4.1 تحسنًا بنسبة 10.5% مقارنة بـ GPT-4o.[IMAGE_9]

حقق GPT-4.1 أيضًا درجة 87.4% في اختبار IFEval، بينما حصل GPT-4o على 81.0%. يستخدم IFEval تعليمات يمكن التحقق منها مثل تحديد طول المحتوى أو تجنب استخدام مصطلحات معينة أو تنسيقات.[IMAGE_10]

تحسين القدرة على الامتثال للتعليمات يجعل التطبيقات الحالية أكثر موثوقية ويدعم التطبيقات الجديدة التي كانت مقيدة سابقًا بسبب قلة الموثوقية. أشار المستخدمون الأوائل إلى أن GPT-4.1 يمكن أن يكون أكثر حدسية، لذلك توصي OpenAI بأن تكون التعليمات أكثر وضوحًا ودقة.[IMAGE_11]

يمكن لـ GPT-4.1 وGPT-4.1 mini وGPT-4.1 nano معالجة حتى مليون توكن من السياق، بينما كانت نموذج GPT-4o السابقة تدعم حتى 128,000 توكن. مليون توكن يعادل ثمانية مكتبات شيفرة React كاملة، لذا فإن السياق الطويل مناسب جدًا للتعامل مع مكتبات الشيفرة الكبيرة أو كميات كبيرة من الوثائق الطويلة. قادرة على المعالجة بشكل موثوق للمعلومات بطول سياق يصل إلى مليون توكن، وتظهر موثوقية أكبر في الانتباه إلى النصوص ذات الصلة وتجاهل تداخل السياقات الطويلة والقصيرة. يُعتبر الفهم للسياقات الطويلة قدرة رئيسية مستخدمة في مجالات القانون والبرمجة ودعم العملاء والعديد من المجالات الأخرى.[IMAGE_12]

أظهرت OpenAI قدرة GPT-4.1 على استرجاع المعلومات المخفية "الإبرة" الموجودة في جميع النقاط داخل نافذة السياق. يمكن لـ GPT-4.1 استرجاع المعلومات بدقة عبر جميع المواقع والأطوال السياقية، مع الحد الأقصى قدرة استرجاع تصل إلى مليون توكن. بغض النظر عن موضع هذه التوكن في المدخلات، يمكن لـ GPT-4.1 استخراج التفاصيل المتعلقة بالمهام الحالية بشكل فعال. ومع ذلك، نادرًا ما تكون المهام في العالم الحقيقي بسيطة مثل استرجاع إجابة "الإبرة" الواضحة. اكتشفت OpenAI أن المستخدمين غالبًا ما يحتاجون إلى النموذج لاسترجاع وفهم معلومات متعددة وفهم العلاقات بين هذه المعلومات. لإظهار هذه القدرة، قامت OpenAI بإصدار تقييم جديد: OpenAI-MRCR (إشارة متقاطعة متعددة الجولات).

اختبار OpenAI-MRCR يقيم قدرة النموذج على التعرف على وإزالة العديد من "الإبر" المخفية في السياق. يتضمن التقييم حوارًا مركبًا بين المستخدم والمساعد، حيث يُطلب من المساعد كتابة مقال حول موضوع معين، مثل "اكتب قصيدة عن الأثري" أو "اكتب مدونة حول الصخور"، ثم يتم إدراج طلبين أو أربعة أو ثمانية طلبات متطابقة عبر السياق، يجب على النموذج استرجاع الاستجابة الموافقة لكل طلب معين (مثل "أعطني القصيدة الثالثة عن الأثري"). التحدي هنا هو التشابه بين هذه الطلبات وبقية السياق، حيث يمكن أن يتعرض النموذج للخداع بالفروق الطفيفة، على سبيل المثال قصة قصيرة عن الأثري بدلاً من القصيدة، أو قصيدة عن الضفدع بدلًا من الأثري. اكتشفت OpenAI أن GPT-4.1 تتفوق على GPT-4o بخلاف نتائج الأداء حتى عندما يصل السياق إلى 128K توكن، وكانت أدائها قويًا حتى عند بلوغ الطول مليوني توكن.[IMAGE_13]

كما أصدرت OpenAI Graphwalks⁠، وهو مجموعة بيانات لتقييم التفكير طويل السياق بانتقالة متعددة. يحتاج العديد من المطورين في حالات الاستخدام ذات السياق الطويل إلى القيام بمختلف القفزات المنطقية عبر السياق، مثل التنقل بين ملفات مختلفة أثناء كتابة الكود، أو الإشارة إلى مستندات متداخلة عند الإجابة عن أسئلة قانونية معقدة. نظريًا، يمكن للنموذج (حتى البشر) حل مشكلة OpenAI-MRCR من خلال قراءة النصوص مرارًا، لكن تصميم Graphwalks يتطلب القيام بالتفكير في مواضع متعددة في السياق، ولا يمكن حله بالتسلسل.

تملأ Graphwalks نافذة السياق برسوم بيانية موجهة تتألف من قيم هاش سداسية عشرية، ثم تطلب من النموذج تنفيذ عملية البحث بالعرض (BFS) بدءًا من عقدة عشوائية داخل المخطط. ثم يُطلب منه إعادة كل العقد حتى عمق معين. أظهرت النتائج أن GPT-4.1 حققت دقة 61.7% في هذا الاختبار، وهو أداء يماثل أداء o1، ويفوق بشكل مريح GPT-4o.[IMAGE_14]

أثبت نموذج GPT-4.1 mini أيضًا قوته في فهم الصور، حيث غالبًا ما يتفوق في اختبارات الصور على GPT-4o. تظهر المقارنات في الأداء في معايير مثل MMMU (التي تجيب على الأسئلة المتعلقة بالرسوم البيانية والتصاميم والخرائط)، MathVista⁠ (حل المشكلات الرياضية بصريًا)، وCharXiv-Reasoning (الرد على الأسئلة في الأوراق العلمية المتعلقة بالرسوم البيانية).[IMAGE_15][IMAGE_16]

تعتبر أداءات السياق الطويل أمرًا حيويًا لحالات الاستخدام المتعددة الوسائط (مثل معالجة الفيديو الطويل). في Video-MME (فيديو طويل بلا عنوان)، جاوب النموذج على أسئلة متعددة الخيارات بناءً على مقاطع فيديو لا تحتوي على تسميات مدتها 30-60 دقيقة. حققت GPT-4.1 أفضل أداءً وبلغت 72.0%، متفوقة على 65.3% لتلك الخاصة بـ GPT-4o.[IMAGE_17]

لمزيد من مؤشرات الأداء، يرجى مراجعة مدونة OpenAI الأصلية. عنوان المدونة: https://openai.com/index/gpt-4-1/

تقييماتنا المميزة

أفضل مولد صور AI: تحسين FLUX مع نونتشاكو

أفضل مولد صور AI: تحسين FLUX مع نونتشاكو

استكشف تقنية نونتشاكو لتحسين سرعة إنتاج الصور وجودتها.

مولد صورة AIتقنيةتحسين الأداء
أفضل مولد صور AI: ميزات GPT-4.1 الجديدة من OpenAI

أفضل مولد صور AI: ميزات GPT-4.1 الجديدة من OpenAI

استعراض شامل لقدرات وأداء نموذج GPT-4.1 الجديد من OpenAI.

مولد صور AIتكنولوجياOpenAI
أفضل مولد صور الذكاء الاصطناعي: AIEASE يجلب ثورة في تحرير الصور!

أفضل مولد صور الذكاء الاصطناعي: AIEASE يجلب ثورة في تحرير الصور!

تعرّف على AIEASE، أداة ثورية لتعديل الصور باستخدام الذكاء الاصطناعي، وتعرف على ميزاتها الرئيسية.

تحرير الصورالذكاء الاصطناعيتكنولوجيا
أفضل مولد صور AI: استكشاف نماذج الحيوانات والبشر المدمجة

أفضل مولد صور AI: استكشاف نماذج الحيوانات والبشر المدمجة

تقدم المقالة نماذج فنية مدهشة تمزج بين العناصر البشرية والحيوانية في أنماط ثلاثية الأبعاد.

مولد صور AIفن رقميتصميم ثلاثي الأبعاد