اخیراً، ChatGPT به نقطه داغ جدیدی برای هوش مصنوعی تبدیل شده است، زیرا مایکروسافت و گوگل در سیلیکون ولی سرمایه گذاری هنگفتی بر روی چنین فناوری هایی انجام می دهند (مایکروسافت ۱۰ میلیارد دلار سهام در OpenAI، شرکت پشتیبان ChatGPT دارد، و گوگل اخیرا مدل BARD خود را منتشر کرده است). در حالی که شرکت های فناوری اینترنتی در چین، با نمایندگی بایدو و دیگران، نیز نشان داده اند که در حال توسعه چنین فناوری هستند و در آینده نزدیک فعال خواهند شد. در چین، بایدو و سایر شرکتهای فناوری اینترنتی نیز نشان دادهاند که در حال توسعه چنین فناوریهایی هستند و در آینده نزدیک وارد بازار خواهند شد.
مدلهای مولد ارائهشده توسط ChatGPT یک ویژگی مشترک دارند، یعنی از دادههای عظیم برای پیشآموزش استفاده میکنند و اغلب با یک مدل زبان قویتر جفت میشوند. عملکرد اصلی مدل زبان یادگیری از مجموعه عظیم موجود است و پس از یادگیری، می تواند دستورالعمل های زبانی کاربر را درک کند، یا علاوه بر این، خروجی متن مربوطه را مطابق دستورالعمل کاربر تولید کند.
مدل های مولد را می توان به طور کلی به دو دسته طبقه بندی کرد، یکی مدل های مولد مبتنی بر زبان و دیگری مدل های مولد مبتنی بر تصویر. مدلهای مولد مبتنی بر زبان توسط ChatGPT نشان داده میشوند، که مدل زبان آن نه تنها میتواند درک معنای دستورات کاربر را بیاموزد (به عنوان مثال، "شعر بنویسید، به سبک لی بای")، بلکه متن مرتبط را بر اساس کاربر ایجاد کند. دستورات پس از آموزش با داده های عظیم (در مثال بالا، نوشتن شعر به سبک لی بای). شعر). این به این معنی است که ChatGPT باید یک مدل زبان بزرگ (LLM) داشته باشد که زبان کاربر را درک کند و بتواند خروجی زبان با کیفیت بالا تولید کند - به عنوان مثال، مدل باید نحوه تولید شعر، نحوه تولید اشعار به سبک لی بای را درک کند. ، و غیره. این همچنین به این معنی است که مدلهای زبان بزرگ در هوش مصنوعی مولد مبتنی بر زبان به تعداد بسیار زیادی پارامتر برای انجام این نوع یادگیری پیچیده و به خاطر سپردن اطلاعات زیادی نیاز دارند. برای مثال ChatGPT دارای 175 میلیارد پارامتر (700 گیگابایت فضای ذخیره سازی در صورت استفاده از اعداد ممیز شناور استاندارد) است که نشان می دهد مدل زبانی آن چقدر "بزرگ" است.
دسته دیگری از مدلهای مولد، مدل تولید تصویر است که توسط Diffusion، معمولاً Dalle از OpenAI، ImaGen از Google، و در حال حاضر محبوبترین Stable Diffusion از Runway AI است. این مدل های تولید شبیه تصویر همچنین از یک مدل زبان برای درک دستورات زبانی کاربر و سپس تولید تصاویر با کیفیت بالا بر اساس آن دستورات استفاده می کنند. برخلاف مدلهای مولد مبتنی بر زبان، مدل زبانی که در اینجا استفاده میشود، عمدتاً از زبان برای درک ورودی کاربر بدون تولید خروجی زبان استفاده میکند، بنابراین تعداد پارامترها میتواند بسیار کم باشد (در حد چند صد میلیون)، در حالی که تعداد پارامترها برای مدلهای انتشار مبتنی بر تصویر نسبتاً کوچک هستند و در مجموع حدود چند میلیارد هستند، اما تلاش محاسباتی کم نیست زیرا وضوح تصاویر یا ویدیوهای تولید شده میتواند بسیار بالا باشد.
مدلهای تولیدی میتوانند خروجی با کیفیت بالا و بیسابقهای را از طریق آموزش دادههای انبوه تولید کنند، و در حال حاضر تعدادی بازار برنامه واضح، از جمله جستجو، رباتهای گفتگو، تولید و ویرایش تصویر و غیره وجود دارد. برنامههای کاربردی بیشتری در آینده انتظار میرود، که همچنین تقاضا برای تراشه های مرتبط
نیاز به تراشه برای تولید مدل های کلاس
همانطور که قبلا ذکر شد، ChatGPT یک مدل تولیدی را نشان می دهد که برای دستیابی به خروجی تولیدی با کیفیت بالا نیاز به یادگیری از مقادیر زیادی داده های آموزشی دارد. به منظور حمایت از آموزش و استنتاج کارآمد، مدلهای مولد نیازمندیهای خاص خود را برای تراشههای مرتبط دارند.
اولین مورد نیاز به محاسبات توزیع شده است. تعداد پارامترها برای مدل های مولد زبان مانند ChatGPT صدها میلیارد است و استفاده از آموزش و استنتاج تک کامپیوتری تقریبا غیرممکن است، اما باید از محاسبات توزیع شده زیادی استفاده کرد. در محاسبات توزیع شده، پهنای باند اتصال داده بین ماشین ها و تراشه محاسباتی برای چنین محاسبات توزیع شده (مانند RDMA) تقاضای زیادی دارد، زیرا اغلب گلوگاه کار ممکن است در محاسبات نباشد، اما در اتصال داده های بالا، به ویژه در این نوع از محاسبات توزیع شده در مقیاس بزرگ، تراشه برای پشتیبانی کارآمد از محاسبات توزیع شده حیاتی تر شده است.
بعد ظرفیت حافظه و پهنای باند است. اگرچه آموزش توزیع شده و استنتاج برای مدلهای مولد مبتنی بر زبان اجتنابناپذیر است، اما حافظه محلی و پهنای باند هر تراشه تا حد زیادی بازده اجرای یک تراشه را تعیین میکند (زیرا حافظه هر تراشه تا حد خود استفاده میشود). برای مدلهای تولیدی مبتنی بر تصویر، میتوان مدلها (حدود 20 گیگابایت) را همه در حافظه تراشه قرار داد، اما از آنجایی که مدلهای تولیدی مبتنی بر تصویر در آینده پیشرفت بیشتری میکنند، این احتمال وجود دارد که نیازهای حافظه آن نیز افزایش بیشتری پیدا کند. . از این منظر، فناوری حافظه با پهنای باند فوقالعاده بالا که توسط HBM ارائه میشود، به انتخاب اجتنابناپذیر تراشههای شتابدهنده مرتبط تبدیل خواهد شد، در حالی که مدلهای کلاس تولیدی نیز حافظه HBM را برای افزایش ظرفیت و پهنای باند تسریع میکنند. علاوه بر HBM، فنآوریهای ذخیرهسازی جدید مانند CXL همراه با بهینهسازیهای نرمافزاری نیز پتانسیل افزایش ظرفیت و عملکرد ذخیرهسازی محلی را در چنین برنامههایی خواهند داشت و برآورد میشود که با ظهور مدل کلاس تولیدی، پذیرش صنعتی بیشتری را به دست آورند.
در نهایت، محاسبات، هر دو مدل کلاس تولیدی مبتنی بر زبان و مبتنی بر تصویر، تقاضای محاسباتی زیادی دارند، و مدلهای مولد مبتنی بر تصویر ممکن است تقاضای بسیار بیشتری برای قدرت حسابی داشته باشند، زیرا وضوحهای بالاتر و بالاتری تولید میکنند و به سمت برنامههای ویدیویی حرکت میکنند - فعلی. مدلهای اصلی تولید تصویر دارای حجم محاسباتی در حدود 20 TFlops هستند، و در مورد وضوح و تصاویر بالا، 100-1000 TFLOPS تقاضای حسابی احتمالاً معمول است.
به طور خلاصه، ما معتقدیم که الزامات مدل های مولد برای تراشه ها شامل محاسبات توزیع شده، ذخیره سازی و محاسبات است که می توان گفت همه جنبه های طراحی تراشه را شامل می شود و مهمتر از آن، نحوه ترکیب همه این الزامات با هم به روشی معقول. اطمینان حاصل شود که یک جنبه به یک گلوگاه تبدیل نمی شود، که همچنین به یک مشکل مهندسی سیستم طراحی تراشه تبدیل خواهد شد.
پردازنده گرافیکی و تراشه هوش مصنوعی جدید که شانس بیشتری دارد
مدل های مولد تقاضای جدیدی برای تراشه دارند. چه کسی شانس بیشتری برای جذب این تقاضا و بازار جدید برای پردازندههای گرافیکی (به نمایندگی از Nvidia و AMD) و تراشههای هوش مصنوعی جدید (با نمایندگی Habana، GraphCore) دارد؟
اولاً، از منظر مدلهای مولد مبتنی بر زبان، فروشندگان GPU که در حال حاضر طرحبندی کاملی در این نوع بومشناسی دارند، به دلیل تعداد زیاد شرکتکنندگان و نیاز به پشتیبانی محاسباتی توزیعشده خوب، مزیت بیشتری دارند. این یک مشکل مهندسی سیستم است که نیاز به یک راهحل نرمافزاری و سختافزاری کامل دارد و در این راستا، انویدیا پردازندههای گرافیکی خود را برای راهاندازی راهحل تریتون، که از آموزش توزیعشده و استنتاج توزیعشده پشتیبانی میکند، ترکیب کرده است و به یک مدل اجازه میدهد به بخشهای متعدد تقسیم شود و پردازش شود. در پردازندههای گرافیکی مختلف، بنابراین مشکل پارامترهای بسیار زیادی که توسط حافظه اصلی یک GPU قابل تطبیق نیست، حل میشود. این مشکل پارامترهای بیش از حد برای حافظه اصلی یک GPU را حل می کند. چه به طور مستقیم از تریتون استفاده کنید و چه در آینده توسعه بیشتری را بر اساس تریتون انجام دهید، داشتن یک GPU کامل زیست محیطی راحت تر است. از نقطه نظر محاسباتی، از آنجایی که محاسبات اصلی مدل تولید مبتنی بر زبان، محاسبات ماتریسی است که نقطه قوت GPU است، تراشه هوش مصنوعی جدید از این منظر مزیت آشکاری نسبت به GPU ندارد.
از دیدگاه مدلهای تولید مبتنی بر تصویر، تعداد پارامترهای این گونه مدلها نیز زیاد است، اما یک تا دو مرتبه کوچکتر از مدلهای تولید مبتنی بر زبان، علاوه بر محاسبه آن، همچنان در یک بزرگ استفاده میشود. تعداد محاسبات کانولوشنال، بنابراین برنامه های استنتاج، اگر بتوانید بهینه سازی بسیار خوبی انجام دهید، تراشه های هوش مصنوعی ممکن است فرصت هایی داشته باشند. در اینجا بهینه سازی شامل مقدار زیادی از ذخیره سازی روی تراشه برای تطبیق پارامترها و نتایج محاسباتی میانی، برای کانولوشن و پشتیبانی کارآمد از عملیات ماتریس است.
به طور کلی، نسل فعلی تراشههای هوش مصنوعی برای هدف قرار دادن مدلهای کوچکتر (تعداد پارامترها در سطح میلیارد، محاسبه در سطح 1TOPS) طراحی شدهاند، در حالی که تقاضا برای مدلهای مولد هنوز نسبتاً بیشتر از هدف طراحی اصلی است. پردازندههای گرافیکی به گونهای طراحی شدهاند که به ازای کارایی، انعطافپذیرتر باشند، در حالی که تراشههای هوش مصنوعی برعکس طراحی شدهاند و کارایی برنامه مورد نظر را دنبال میکنند. بنابراین، ما معتقدیم که پردازندههای گرافیکی همچنان در یکی دو سال آینده بر چنین شتابگیری مدلهای مولد تسلط خواهند داشت، اما از آنجایی که طراحیهای مدلهای مولد پایدارتر میشوند و طراحیهای تراشههای هوش مصنوعی زمان دارند تا با تکرار مدلهای مولد پیشی بگیرند، تراشههای هوش مصنوعی این فرصت را دارند که از پردازندههای گرافیکی پیشی بگیرند. در فضای مدل مولد از منظر کارایی.

