ChatGPT به چه نوع تراشه ای نیاز دارد؟ - اخبار صنعتی

اخیراً، ChatGPT به نقطه داغ جدیدی برای هوش مصنوعی تبدیل شده است، زیرا مایکروسافت و گوگل در سیلیکون ولی سرمایه گذاری هنگفتی بر روی چنین فناوری هایی انجام می دهند (مایکروسافت ۱۰ میلیارد دلار سهام در OpenAI، شرکت پشتیبان ChatGPT دارد، و گوگل اخیرا مدل BARD خود را منتشر کرده است). در حالی که شرکت های فناوری اینترنتی در چین، با نمایندگی بایدو و دیگران، نیز نشان داده اند که در حال توسعه چنین فناوری هستند و در آینده نزدیک فعال خواهند شد. در چین، بایدو و سایر شرکت‌های فناوری اینترنتی نیز نشان داده‌اند که در حال توسعه چنین فناوری‌هایی هستند و در آینده نزدیک وارد بازار خواهند شد.

مدل‌های مولد ارائه‌شده توسط ChatGPT یک ویژگی مشترک دارند، یعنی از داده‌های عظیم برای پیش‌آموزش استفاده می‌کنند و اغلب با یک مدل زبان قوی‌تر جفت می‌شوند. عملکرد اصلی مدل زبان یادگیری از مجموعه عظیم موجود است و پس از یادگیری، می تواند دستورالعمل های زبانی کاربر را درک کند، یا علاوه بر این، خروجی متن مربوطه را مطابق دستورالعمل کاربر تولید کند.

مدل های مولد را می توان به طور کلی به دو دسته طبقه بندی کرد، یکی مدل های مولد مبتنی بر زبان و دیگری مدل های مولد مبتنی بر تصویر. مدل‌های مولد مبتنی بر زبان توسط ChatGPT نشان داده می‌شوند، که مدل زبان آن نه تنها می‌تواند درک معنای دستورات کاربر را بیاموزد (به عنوان مثال، "شعر بنویسید، به سبک لی بای")، بلکه متن مرتبط را بر اساس کاربر ایجاد کند. دستورات پس از آموزش با داده های عظیم (در مثال بالا، نوشتن شعر به سبک لی بای). شعر). این به این معنی است که ChatGPT باید یک مدل زبان بزرگ (LLM) داشته باشد که زبان کاربر را درک کند و بتواند خروجی زبان با کیفیت بالا تولید کند - به عنوان مثال، مدل باید نحوه تولید شعر، نحوه تولید اشعار به سبک لی بای را درک کند. ، و غیره. این همچنین به این معنی است که مدل‌های زبان بزرگ در هوش مصنوعی مولد مبتنی بر زبان به تعداد بسیار زیادی پارامتر برای انجام این نوع یادگیری پیچیده و به خاطر سپردن اطلاعات زیادی نیاز دارند. برای مثال ChatGPT دارای 175 میلیارد پارامتر (700 گیگابایت فضای ذخیره سازی در صورت استفاده از اعداد ممیز شناور استاندارد) است که نشان می دهد مدل زبانی آن چقدر "بزرگ" است.

دسته دیگری از مدل‌های مولد، مدل تولید تصویر است که توسط Diffusion، معمولاً Dalle از OpenAI، ImaGen از Google، و در حال حاضر محبوب‌ترین Stable Diffusion از Runway AI است. این مدل های تولید شبیه تصویر همچنین از یک مدل زبان برای درک دستورات زبانی کاربر و سپس تولید تصاویر با کیفیت بالا بر اساس آن دستورات استفاده می کنند. برخلاف مدل‌های مولد مبتنی بر زبان، مدل زبانی که در اینجا استفاده می‌شود، عمدتاً از زبان برای درک ورودی کاربر بدون تولید خروجی زبان استفاده می‌کند، بنابراین تعداد پارامترها می‌تواند بسیار کم باشد (در حد چند صد میلیون)، در حالی که تعداد پارامترها برای مدل‌های انتشار مبتنی بر تصویر نسبتاً کوچک هستند و در مجموع حدود چند میلیارد هستند، اما تلاش محاسباتی کم نیست زیرا وضوح تصاویر یا ویدیوهای تولید شده می‌تواند بسیار بالا باشد.

مدل‌های تولیدی می‌توانند خروجی با کیفیت بالا و بی‌سابقه‌ای را از طریق آموزش داده‌های انبوه تولید کنند، و در حال حاضر تعدادی بازار برنامه واضح، از جمله جستجو، ربات‌های گفتگو، تولید و ویرایش تصویر و غیره وجود دارد. برنامه‌های کاربردی بیشتری در آینده انتظار می‌رود، که همچنین تقاضا برای تراشه های مرتبط

نیاز به تراشه برای تولید مدل های کلاس

همانطور که قبلا ذکر شد، ChatGPT یک مدل تولیدی را نشان می دهد که برای دستیابی به خروجی تولیدی با کیفیت بالا نیاز به یادگیری از مقادیر زیادی داده های آموزشی دارد. به منظور حمایت از آموزش و استنتاج کارآمد، مدل‌های مولد نیازمندی‌های خاص خود را برای تراشه‌های مرتبط دارند.

اولین مورد نیاز به محاسبات توزیع شده است. تعداد پارامترها برای مدل های مولد زبان مانند ChatGPT صدها میلیارد است و استفاده از آموزش و استنتاج تک کامپیوتری تقریبا غیرممکن است، اما باید از محاسبات توزیع شده زیادی استفاده کرد. در محاسبات توزیع شده، پهنای باند اتصال داده بین ماشین ها و تراشه محاسباتی برای چنین محاسبات توزیع شده (مانند RDMA) تقاضای زیادی دارد، زیرا اغلب گلوگاه کار ممکن است در محاسبات نباشد، اما در اتصال داده های بالا، به ویژه در این نوع از محاسبات توزیع شده در مقیاس بزرگ، تراشه برای پشتیبانی کارآمد از محاسبات توزیع شده حیاتی تر شده است.

بعد ظرفیت حافظه و پهنای باند است. اگرچه آموزش توزیع شده و استنتاج برای مدل‌های مولد مبتنی بر زبان اجتناب‌ناپذیر است، اما حافظه محلی و پهنای باند هر تراشه تا حد زیادی بازده اجرای یک تراشه را تعیین می‌کند (زیرا حافظه هر تراشه تا حد خود استفاده می‌شود). برای مدل‌های تولیدی مبتنی بر تصویر، می‌توان مدل‌ها (حدود 20 گیگابایت) را همه در حافظه تراشه قرار داد، اما از آنجایی که مدل‌های تولیدی مبتنی بر تصویر در آینده پیشرفت بیشتری می‌کنند، این احتمال وجود دارد که نیازهای حافظه آن نیز افزایش بیشتری پیدا کند. . از این منظر، فناوری حافظه با پهنای باند فوق‌العاده بالا که توسط HBM ارائه می‌شود، به انتخاب اجتناب‌ناپذیر تراشه‌های شتاب‌دهنده مرتبط تبدیل خواهد شد، در حالی که مدل‌های کلاس تولیدی نیز حافظه HBM را برای افزایش ظرفیت و پهنای باند تسریع می‌کنند. علاوه بر HBM، فن‌آوری‌های ذخیره‌سازی جدید مانند CXL همراه با بهینه‌سازی‌های نرم‌افزاری نیز پتانسیل افزایش ظرفیت و عملکرد ذخیره‌سازی محلی را در چنین برنامه‌هایی خواهند داشت و برآورد می‌شود که با ظهور مدل کلاس تولیدی، پذیرش صنعتی بیشتری را به دست آورند.

در نهایت، محاسبات، هر دو مدل کلاس تولیدی مبتنی بر زبان و مبتنی بر تصویر، تقاضای محاسباتی زیادی دارند، و مدل‌های مولد مبتنی بر تصویر ممکن است تقاضای بسیار بیشتری برای قدرت حسابی داشته باشند، زیرا وضوح‌های بالاتر و بالاتری تولید می‌کنند و به سمت برنامه‌های ویدیویی حرکت می‌کنند - فعلی. مدل‌های اصلی تولید تصویر دارای حجم محاسباتی در حدود 20 TFlops هستند، و در مورد وضوح و تصاویر بالا، 100-1000 TFLOPS تقاضای حسابی احتمالاً معمول است.

به طور خلاصه، ما معتقدیم که الزامات مدل های مولد برای تراشه ها شامل محاسبات توزیع شده، ذخیره سازی و محاسبات است که می توان گفت همه جنبه های طراحی تراشه را شامل می شود و مهمتر از آن، نحوه ترکیب همه این الزامات با هم به روشی معقول. اطمینان حاصل شود که یک جنبه به یک گلوگاه تبدیل نمی شود، که همچنین به یک مشکل مهندسی سیستم طراحی تراشه تبدیل خواهد شد.

پردازنده گرافیکی و تراشه هوش مصنوعی جدید که شانس بیشتری دارد

مدل های مولد تقاضای جدیدی برای تراشه دارند. چه کسی شانس بیشتری برای جذب این تقاضا و بازار جدید برای پردازنده‌های گرافیکی (به نمایندگی از Nvidia و AMD) و تراشه‌های هوش مصنوعی جدید (با نمایندگی Habana، GraphCore) دارد؟

اولاً، از منظر مدل‌های مولد مبتنی بر زبان، فروشندگان GPU که در حال حاضر طرح‌بندی کاملی در این نوع بوم‌شناسی دارند، به دلیل تعداد زیاد شرکت‌کنندگان و نیاز به پشتیبانی محاسباتی توزیع‌شده خوب، مزیت بیشتری دارند. این یک مشکل مهندسی سیستم است که نیاز به یک راه‌حل نرم‌افزاری و سخت‌افزاری کامل دارد و در این راستا، انویدیا پردازنده‌های گرافیکی خود را برای راه‌اندازی راه‌حل تریتون، که از آموزش توزیع‌شده و استنتاج توزیع‌شده پشتیبانی می‌کند، ترکیب کرده است و به یک مدل اجازه می‌دهد به بخش‌های متعدد تقسیم شود و پردازش شود. در پردازنده‌های گرافیکی مختلف، بنابراین مشکل پارامترهای بسیار زیادی که توسط حافظه اصلی یک GPU قابل تطبیق نیست، حل می‌شود. این مشکل پارامترهای بیش از حد برای حافظه اصلی یک GPU را حل می کند. چه به طور مستقیم از تریتون استفاده کنید و چه در آینده توسعه بیشتری را بر اساس تریتون انجام دهید، داشتن یک GPU کامل زیست محیطی راحت تر است. از نقطه نظر محاسباتی، از آنجایی که محاسبات اصلی مدل تولید مبتنی بر زبان، محاسبات ماتریسی است که نقطه قوت GPU است، تراشه هوش مصنوعی جدید از این منظر مزیت آشکاری نسبت به GPU ندارد.

از دیدگاه مدل‌های تولید مبتنی بر تصویر، تعداد پارامترهای این گونه مدل‌ها نیز زیاد است، اما یک تا دو مرتبه کوچک‌تر از مدل‌های تولید مبتنی بر زبان، علاوه بر محاسبه آن، همچنان در یک بزرگ استفاده می‌شود. تعداد محاسبات کانولوشنال، بنابراین برنامه های استنتاج، اگر بتوانید بهینه سازی بسیار خوبی انجام دهید، تراشه های هوش مصنوعی ممکن است فرصت هایی داشته باشند. در اینجا بهینه سازی شامل مقدار زیادی از ذخیره سازی روی تراشه برای تطبیق پارامترها و نتایج محاسباتی میانی، برای کانولوشن و پشتیبانی کارآمد از عملیات ماتریس است.

به طور کلی، نسل فعلی تراشه‌های هوش مصنوعی برای هدف قرار دادن مدل‌های کوچک‌تر (تعداد پارامترها در سطح میلیارد، محاسبه در سطح 1TOPS) طراحی شده‌اند، در حالی که تقاضا برای مدل‌های مولد هنوز نسبتاً بیشتر از هدف طراحی اصلی است. پردازنده‌های گرافیکی به گونه‌ای طراحی شده‌اند که به ازای کارایی، انعطاف‌پذیرتر باشند، در حالی که تراشه‌های هوش مصنوعی برعکس طراحی شده‌اند و کارایی برنامه مورد نظر را دنبال می‌کنند. بنابراین، ما معتقدیم که پردازنده‌های گرافیکی همچنان در یکی دو سال آینده بر چنین شتاب‌گیری مدل‌های مولد تسلط خواهند داشت، اما از آنجایی که طراحی‌های مدل‌های مولد پایدارتر می‌شوند و طراحی‌های تراشه‌های هوش مصنوعی زمان دارند تا با تکرار مدل‌های مولد پیشی بگیرند، تراشه‌های هوش مصنوعی این فرصت را دارند که از پردازنده‌های گرافیکی پیشی بگیرند. در فضای مدل مولد از منظر کارایی.

ND2N9T12-full-automatic5