مقاله آموزشی برنامه نویسی: انفجار هوش های مصنوعی؛ تولد شرکت های ارائه دهنده هوش مصنوعی

اما واقعیت پشت پرده، سحر و جادو یا نقشه‌ای پنهان از سوی «دست‌های پشت پرده» نبود. این اتفاق، حاصل یک تلاقی تکنولوژیک، رقابت شدید استراتژیک و یک ریسک بزرگ تجاری بود. در ادامه، ماجرا را از دیدگاه مهندسی و بیزینس بررسی می‌کنیم تا ببینیم چطور کلید این انفجار ناگهانی سال‌ها قبل خورده بود.

برگ برنده بزرگ: معماری ترنسفورمر (Transformer)

هیچ‌کدام از این هوش‌های مصنوعی بدون یک مقاله علمی که در سال ۲۰۱۷ منتشر شد، وجود خارجی نداشتند. طنز ماجرا اینجاست که این مقاله را OpenAI یا مایکروسافت ننوشتند، بلکه دانشمندان گوگل آن را با عنوان "Attention Is All You Need" منتشر کردند.

معماری ترنسفورمر (Transformer) (همان حرف T در GPT) انقلابی در پردازش زبان طبیعی (NLP) ایجاد کرد. پیش از آن، مدل‌های یادگیری ماشین (مثل RNNها) متون را کلمه به کلمه و به ترتیب پردازش می‌کردند که بسیار کند بود و حافظه کوتاه‌مدتی داشت. ترنسفورمرها مفهوم «مکانیزم توجه» (Attention Mechanism) را معرفی کردند که به مدل اجازه می‌داد تمام کلمات یک متن را هم‌زمان ببیند، ارتباط بین آن‌ها را درک کند و به شدت موازی‌سازی (Parallelization) شود.

واقعیت فنی: از سال ۲۰۱۷ تا ۲۰۲۲، تمام شرکت‌های بزرگ فناوری (گوگل، متا، مایکروسافت، بیدو و...) زیرساخت‌های خود را بر اساس این معماری چیدند. یعنی همه فرمول اصلی را در دست داشتند و روی آن کار می‌کردند.

چرا گوگل و متا زودتر رونمایی نکردند؟ (سندرم غول‌های محافظه‌کار)

این سوال پیش می‌آید: اگر گوگل خودش مخترع ترنسفورمر بود، چرا بقیه را شگفت‌زده نکرد؟ پاسخ در «ملاحظات برند و امنیت» نهفته است.

ترس از بدنامی (Reputation Risk): شرکت‌های بزرگی مثل گوگل و متا میلیاردها دلار ارزش بازار دارند. اگر هوش مصنوعی آن‌ها یک پاسخ نژادپرستانه، اشتباه یا خطرناک می‌داد، سهام آن‌ها سقوط می‌کرد و با دادگاه‌های متعددی روبه‌رو می‌شدند. (همان‌طور که بعداً با معرفی عجولانه Bard و افت چند میلیارد دلاری سهام گوگل شاهدش بودیم).
پروژه‌های داخلی فعال: گوگل مدل‌های قدرتمندی مثل LaMDA و PaLM را سال‌ها قبل از ChatGPT در اختیار داشت. مهندسان گوگل حتی ترسیده بودند و ادعا می‌کردند LaMDA واجد هوش و شعور (Sentient) شده است! اما گوگل از این مدل‌ها صرفاً در بخش‌های داخلی یا بهبود موتور جستجوی خود استفاده می‌کرد و جرئت عمومی کردن آن‌ها را نداشت.
متا و مدل LLaMA: مارک زاکربرگ و تیم هوش مصنوعی متا (FAIR) به شدت روی مدل‌های زبانی کار می‌کردند، اما تمرکز آن‌ها بیشتر روی کارهای پژوهشی و آکادمیک بود، نه یک محصول تجاری چت‌باکس برای عموم مردم.

حرکت انتحاری OpenAI: شجاعت یا قمار؟

OpenAI در آن زمان یک شرکت نسبتاً کوچک‌تر و چابک‌تر بود (هرچند از حمایت‌های مایکروسافت بهره می‌برد). آن‌ها چیزی برای از دست دادن نداشتند. سام آلتمن و تیمش تصمیم گرفتند یک واسط کاربری ساده (Chat Interface) روی مدل GPT-3.5 که از قبل توسعه داده بودند بگذارند و آن را به عنوان یک «پیش‌نمایش تحقیقاتی رایگان» در نوامبر ۲۰۲۲ عرضه کنند.

این یک حرکت نبوغ‌آمیز در حوزه محصول (Product Management) بود، نه لزوماً یک جهش ناگهانی در علم. آن‌ها متوجه شدند که مردم تشنه تعامل مستقیم با هوش مصنوعی هستند. استقبال ۵ میلیونی در چند روز اول، حتی خود OpenAI را هم شوکه کرد.

اثر دومینو و وضعیت «کد قرمز» (Code Red)

وقتی ChatGPT منفجر شد، پاردایم صنعت تکنولوژی در یک شب تغییر کرد. برای غول‌های فناوری، این دیگر بحث «تحقیق و توسعه» نبود، بحث بقا بود.

وضعیت اضطراری در گوگل: سوندار پیچای (مدیرعامل گوگل) وضعیت «کد قرمز» اعلام کرد. بنیان‌گذاران گوگل (لری پیج و سرگی برین) که سال‌ها بود از کارهای اجرایی کنار کشیده بودند، به شرکت برگشتند تا خط مشی جنگی تعیین کنند. گوگل مجبور شد مدل‌های پشت پرده خود (مثل LaMDA) را سریعاً با نام Bard (و بعداً Gemini) بسته‌بندی و ریلیز کند.
متا و اوپن‌سورس کردن: متا دید که در بازار مدل‌های تجاری عقب افتاده، پس استراتژی خود را تغییر داد و مدل قدرتمند LLaMA را به صورت متن‌باز (Open-Source) منتشر کرد تا قلب جامعه توسعه‌دهندگان را مال خود کند.
بقیه رقبا: شرکت‌هایی مثل آمازون، اپل و انویدیا نیز ابزارهای خود را که سال‌ها در آزمایشگاه‌ها رویشان کار می‌کردند، به سرعت تجاری‌سازی کردند تا از قطار سریع‌السیر AI جا نمانند.

خلاصه ادوات مهندسی: چرا همه آماده بودند؟

به عنوان یک مهندس، اگر بخواهم فاکتورهای فنی که این آمادگی همگانی را ممکن کرد جمع‌بندی کنم، به این ۳ مورد می‌رسم:

دسترسی همگانی به دیتا: همه این شرکت‌ها به کل دیتای اینترنت (Common Crawl، ویکی‌پدیا، کتاب‌ها و دیتاست‌های عظیم) دسترسی داشتند و سال‌ها بود که این دیتابیس‌ها را خزش (Crawl) کرده بودند.
انحصار سخت‌افزاری (GPUs): شرکت‌های بزرگ از سال‌ها قبل خوشه‌های عظیم از پردازنده‌های گرافیکی انویدیا (مثل A100 و H100) را خریده و در دیتاسنترهای خود مستقر کرده بودند. زیرساخت پردازشی آماده بود.
بلوغ ابزارهای MLOps: فریم‌ورک‌هایی مثل PyTorch (توسعه‌یافته توسط متا) و TensorFlow (توسعه‌یافته توسط گوگل) فرآیند آموزش مدل‌های غول‌آسا را برای همه مهندسان این شرکت‌ها استانداردسازی کرده بودند.

هیچ «دست پنهانی» در کار نبود؛ بلکه یک انبار باروت بزرگ از کدهای آماده، دیتای موازی، سخت‌افزارهای گران‌قیمت و مدل‌های آزمایشگاهی وجود داشت که غول‌های فناوری از ترسِ ریسکِ برند، روی آن نشسته بودند. جرقه OpenAI با ChatGPT، این انبار باروت را منفجر کرد. شرکت‌ها مجبور شدند فورا ماسک محافظه‌کاری را بردارند و محصولاتی را که سال‌ها در آزمایشگاه‌های مخفی‌شان در حال توسعه و تست بود، به بازار پرتاب کنند. این یک مسابقه تسلیحاتی تکنولوژیک بود که تازه آغاز شده است.

لینک استاندارد شده: k6dDPwzA