خلق الذكاء الاصطناعي: DeepMind’s AlphaZero

11 مايو 1997 ، يوم خاص للذكاء الاصطناعي. في ذلك اليوم ، لأول مرة تمكن برنامج كمبيوتر اسمه Deep Blue من هزيمة بطل العالم في لعبة الشطرنج تحت ظروف البطولة.

لقد تغير الكثير بالنسبة لمنظمة العفو الدولية منذ ذلك الحين ، بطريقة جيدة. تمتعت السنوات القليلة الماضية بخطوات هائلة وانجازات كبيرة في مجال أبحاث الذكاء الاصطناعى. أصبحت الآلات أكثر ذكاءً ، والأهم من ذلك ، من خلال كل هذا البحث ، بدأنا في اكتساب فهم أوضح لماهية الذكاء البشري حقًا. فقط من خلال فهم ملموس للذكاء يمكننا أن نبني آلات ذكية بالفعل.

كان DeepMind في طليعة ثورة منظمة العفو الدولية.

العقل العميق

DeepMind Technologies هي شركة الذكاء الاصطناعي البريطانية. في عام 2014 ، تم شراؤها بواسطة Google بسبب خبرتها الرائدة عالميًا في مجال الذكاء الاصطناعى. منذ أن بدأوا لأول مرة ، كانوا يأخذون الشقوق الأكثر طموحًا في العالم في حل الذكاء الاصطناعي.

أحدث إبداعاتهم هو الأكثر إثارة للإعجاب: AlphaZero

AlphaZero هو نظام الذكاء الاصطناعى الذي علم نفسه ، من نقطة الصفر ، كيفية إتقان ألعاب الشطرنج ، الشوقي (الشطرنج الياباني) ، و Go. لإثبات تفوق AlphaZero ، تمت مواجهته مع بطل عالمي في كل لعبة. ظهرت AlphaZero منتصرا.

الألعاب والذكاء

في السعي لبناء آلات ذكية ، واجه الباحثون تحديًا للرد أولاً على ماهية الذكاء بالفعل. إنه ليس سؤالًا مستقيمًا للأمام للإجابة!

ما رأيك عندما يطلب منك شخص ما تحديد الذكاء؟ قد يتخيل المرء شخصًا يعتقد أنه ذكي. إنهم يعرفون أشياء لا يعرفها الآخرون. ولكن أكثر من ذلك ، فهم قادرون على استخدام هذه المعرفة في شكل نوع من المهارة من أجل تحقيق الهدف.

الهدف هو عادة شيء يصعب تحقيقه إلى حد ما. يجب أن تتطلب بعض المعرفة والمهارة أو الفهم الأعمق: الذكاء.

القدرة على اللعب والفوز في اللعبة هي شكل من أشكال الذكاء. الألعاب لها قواعد وأهداف. جميع اللاعبين يلعبون بنفس القواعد ويحاولون تحقيق نفس الشيء: الفوز باللعبة. يتطلب الفوز معرفة كيفية لعب اللعبة وكيفية استخدام هذه المعرفة بطريقة تهزم خصمك.

هذا المطلب المتمثل في المعرفة المتخصصة والمتطورة للغاية من أجل الفوز هو بالضبط سبب استخدام ألعاب الطاولة كقاعدة اختبار لأنظمة الذكاء الاصطناعي. إذا أردنا أن يكون نظامنا قادرًا على الفوز بلعبة الشطرنج ليس فقط ضد أحد الهواة بل وأيضًا ضد أفضل لاعب في العالم ، وهو غراند ماستر ، فإن هذا النظام يعرف جيدًا الكثير عن لعبة الشطرنج! يحتاج الأمر إلى النظر في العديد من الخطوات إلى الأمام وفهم مواقف اللوحة ومزايا كل لاعب والحصول على فهم أعمق والحدس للعبة نفسها أكثر من خصمها. يجب أن تكون ذكية.

كاسباروف - ديب بلو (يسار) وسيدول - ألفاجو (يمين)الشطرنج والذهاب

كانت لعبة الشطرنج هي اللعبة الرئيسية لدراسة الذكاء الاصطناعى حتى بعد فترة وجيزة من هزيمة ديب بلو لجاري كاسباروف. أصبحت محركات الشطرنج ، برامج الكمبيوتر المصممة لتكون جيدة حقًا في لعبة الشطرنج ، مشهورة بعد عدة سنوات ، ويمكن الآن العثور عليها على كل لعبة شطرنج للكمبيوتر والهاتف التي يمكنك العثور عليها! وهكذا ، في حين لا تزال أنظمة الذكاء الاصطناعي مقيسة في لعبة الشطرنج من أجل الدقة ، فقد انتقل الباحثون إلى إنشاء أنظمة يمكنها الفوز في ألعاب أكثر تحديا: اذهب.

Go هي لعبة إستراتيجية أخرى حيث يكون الهدف هو إحاطة مساحة أكبر من الأرض بخلاف الخصم. يبدو الأمر بسيطًا ، لكن عمق التفكير أكثر بكثير من عمق الشطرنج. لمجرد مقارنة بسيطة لمعرفة الفرق في التعقيد ، يتم لعب Chess على لوحة 8 × 8 = 64 مربعات بينما يتم لعب Go على شبكة 19x19 مع 361 التقاطعات (نقاط حيث يمكنك اللعب)! عدد الحركات الممكنة في Go أعلى بكثير من عدد الشطرنج.

هذا التعقيد الهائل هو سبب اختيار الباحثين للمضي قدماً في لعبة الانتقال إلى الأمام. إذا كان يمكن بناء نظام الذكاء الاصطناعي لهزيمة بطل العالم في لعبة معقدة مثل Go ، فيجب أن يكون لديه شكل من أشكال الذكاء. على الأقل ، قد يعطينا أدلة في اكتشاف أين قد يأتي المنطق والحدس الذي يتطلبه الذكاء.

AlphaZero: آلة ذكية

في الماضي ، كانت أنظمة الذكاء الاصطناعي مصممة للعبة واحدة محددة ، لذا لا يمكنك استخدام نفس نظام الذكاء الاصطناعي الذي صنعته للشطرنج من أجل لعبة Go. لكن AlphaZero ليس حيلة خدعة! AlphaZero هو نظام الذكاء الاصطناعي العام الذي يمكنه ، من الناحية النظرية ، تعلم اللعب والفوز على مستوى احترافي في العديد من الألعاب. لقد أثبتت نفسها حتى الآن في ألعاب Chess و Shogi و Go ، وكلها تستخدم نفس الخوارزمية.

تصوير AlphaZero AI ، بإذن من DeepMind

الإنجاز الأكثر إثارة الذي حققته AlphaZero هو التعلم المذهل من خلال اللعب الذاتي. كما ترى ، لممارسة AlphaZero ، لممارسة ألعاب الشطرنج ، و shogi ، و Go ، لا تلعب ضد أي معارضين حقيقيين. لقد تعلمت كل مهاراتها باللعب ضد نفسها ، دون معرفة معينة ولكن القواعد الأساسية للعبة.

لكي تتعلم AlphaZero كل لعبة ، ستلعب الشبكة العصبية ملايين الألعاب ضد نفسها. نظرًا لأنه يبدأ بدون معرفة طبيعة اللعب والاستراتيجية الجيدة ، فسوف يمر الكثير من مرحلة التجربة والخطأ ، حيث يتم اللعب بشكل عشوائي تمامًا. ولكن ، مع استمرار اللعبة ، تدفع عملية التعلم التعزيزي النظام إلى لعب المزيد من التحركات "الإيجابية" وتجنب التحركات "السلبية".

يعتمد التعلم المعزز لمنظمة العفو الدولية على نظام المكافآت. سوف تحصل الذكاء الاصطناعى على درجة من المكافأة الإيجابية لفوزها باللعبة و النتيجة السلبية للخسارة. بمرور الوقت ، سوف يتعلم النظام تعظيم درجاته.

ملاحظة للألعاب التي لعبها ألفا زيرو ذات مرة المدربين تدريباً كاملاً ، اكتشف أبطال العالم من جميع الألعاب أن ألفا زيرو قد تعلم بنجاح الاستراتيجيات التقليدية للألعاب التي يلعبها عادةً الرواد. على سبيل المثال ، لعبت AlphaZero بشكل متكرر استراتيجيات فتح الشطرنج الأكثر شيوعًا وأظهرت مهارات محنكة في الدفاع عن ملكها مثل المحترفين.

لكن الشيء المميز حقًا حول Alpha Zero لم يكن يعلم ما يعرفه الأبطال الآخرون ، إنه تعلم ما لم يعرفوه. من خلال اللعب الذاتي ، لم يقتصر Alpha Zero على اللعب فقط ضد ما يمكن أن يفكر فيه الإنسان. كان لديه المرونة للعب كل خطوة ممكنة ، وفتح تعلمها على اللعب والاستراتيجيات غير التقليدية لم يسبق له مثيل من قبل.

"بعض تحركاتها ، مثل نقل الملك إلى مركز اللوحة ، تتعارض مع نظرية الشوغي - ومن منظور إنساني - يبدو أنها تضع AlphaZero في وضع محفوف بالمخاطر. لكن بشكل لا يصدق أنها لا تزال في السيطرة على المجلس. يوضح لنا أسلوب اللعب الفريد أن هناك إمكانيات جديدة للعبة. "
- يوشيهارو هابو ، 9 أشخاص من المحترفين ، اللاعب الوحيد في التاريخ الذي يحمل جميع ألقاب شوغي السبعة الرئيسية

ينظر الخبراء إلى هذه المهارة على أنها إبداعية ، الأمر الذي يتطلب مستوىً فائقًا من المعرفة والمهارة: الذكاء. لإنشاء أنظمة ذكية قادرة على حل مجموعة واسعة من مشاكل العالم الواقعي ، يجب أن يتم تصميمها بحيث يكون لديهم فهم جيد للقواعد ، ولكنهم يتمتعون بالمرونة الكافية للقيام باستكشافهم الخاص. يجب أن يكونوا كذلك قادرين على أن يصبحوا ماهرين في العديد من الأشياء المختلفة وألا يكونوا مؤمنين بلعبة واحدة.

AlphaZero يظهر بعض العلامات المبكرة لذلك. إنه يوضح أن خوارزمية واحدة يمكنها أن تتعلم كيف تفهم المعرفة الحالية ، ثم تتجاوز ذلك. إنها خطوة في الاتجاه الصحيح لإنشاء الذكاء.

إذا كنت ترغب في معرفة المزيد عن AlphaZero ، فيمكنك قراءة منشور مدونة DeepMind أو بحثه المنشور في مجلة Science Journal.

هل ترغب في التعلم؟

اتبعني على twitter حيث أنشر كل شيء عن أحدث وأعظم الذكاء الاصطناعى والتكنولوجيا والعلوم!