[ad_1]

برای شکستن مهره به چکش احتیاج ندارید.

جاناتان فرانکل به کشف هوش مصنوعی می پردازد – نه پسته خیره کننده ، اما همین فلسفه در مورد “فرضیه بلیط قرعه کشی” وی نیز صدق می کند. بیان می کند که در شبکه های عصبی عظیم پنهان شده ، زیرشبکه های نازک تر می توانند همان کار را با کارآیی بیشتری انجام دهند. ترفند این است که آن شبکه های فرعی “خوش شانس” را پیدا کنید که بلیط های بخت آزمایی برنده می شوند.

در مقاله جدید ، فرانكل و همكارانش زیر شبکه های مشابهی را كه در BERT ، رویكرد پیشرفته شبکه عصبی در پردازش زبان طبیعی (NLP) پنهان شده بود ، یافتند. NLP به عنوان شاخه ای از هوش مصنوعی ، رمزگشایی و تجزیه و تحلیل زبان انسان را با برنامه هایی مانند تولید متن پیش بینی یا ربات های چت آنلاین انجام می دهد. از نظر محاسبه ، BERT حجیم است ، معمولاً به قدرت ابر رایانه احتیاج دارد که برای اکثر کاربران در دسترس نیست. دسترسی به بلیط قرعه کشی BERT می تواند شرایط بازی را مساوی کند ، به طور بالقوه به کاربران بیشتری امکان می دهد ابزارهای NLP م onثر را روی تلفن هوشمند تولید کنند – بدون نیاز به چکش.

فرانكل با بيان اينكه اين پيشرفت مي تواند يك روز “مانع ورود” براي NLP را كاهش دهد ، گفت: “ما در حال رسيدن به نقطه اي هستيم كه بايد اين مدل ها را ظريف تر و كاراتر كنيم.”

فرانکل ، دانشجوی دکترای گروه مایکل کاربین در آزمایشگاه علوم رایانه ای و هوش مصنوعی MIT ، نویسنده این تحقیق است که ماه آینده در کنفرانس سیستم های عصبی برای پردازش اطلاعات ارائه می شود. تیانلونگ چن از دانشگاه تگزاس در آستین نویسنده اصلی مقاله است که شامل همکاران ژانگ یانگ وانگ ، همچنین از تگزاس A&M ، و همچنین شیو چانگ ، سیجیا لیو و یانگ ژانگ ، همه از MIT-IBM Watson AI Lab است.

شما امروز احتمالاً با شبکه BERT تعامل کرده اید. این یکی از فناوری های اساسی موتور جستجوی گوگل است و از زمان راه اندازی BERT در سال 2018 توسط گوگل باعث ایجاد هیجان در بین محققان شده است. BERT روشی برای ایجاد شبکه های عصبی است – الگوریتم هایی که از گره های لایه یا “سلول های عصبی” برای یادگیری انجام یک کار با یادگیری مثالهای متعدد. BERT با تلاش مکرر برای پر کردن کلماتی که از متن نوشتاری خارج شده است ، یاد می گیرد و قدرت آن در اندازه زیاد این مجموعه از داده های اولیه یادگیری است. سپس کاربران می توانند شبکه عصبی BERT را مجدداً با یک کار خاص مانند ساخت یک chatbot برای سرویس دهی به مشتریان پیکربندی کنند. اما مشاجره BERT به یک تن قدرت پردازش نیاز دارد.

فرانکل می گوید: “مدل استاندارد BERT امروزه – انواع باغها – 340 میلیون پارامتر دارد” و افزود که تعداد آنها می تواند به 1 میلیارد برسد. تنظیم دقیق چنین شبکه عظیم ممکن است به یک ابر رایانه نیاز داشته باشد. “این فقط به طرز فاحشی گران است. خیلی فراتر از من و شما است.”

چن موافقت می کند. او می گوید ، با وجود محبوبیت BERT ، “این مدل ها” از شبکه بزرگی رنج می برند. خوشبختانه به نظر می رسد فرضیه بلیط قرعه کشی این راه حل باشد.

برای کاهش هزینه های محاسباتی ، چن و همکارانش سعی کردند مدل کوچکتری را که در BERT پنهان شده است ، شناسایی کنند. آنها با کوتاه کردن پارامترهای تکراری از شبکه کامل BERT آزمایش کردند و سپس عملکرد زیر شبکه جدید را با مدل اصلی BERT مقایسه کردند. آنها این مقایسه را برای تعدادی از وظایف NLP ، از پاسخ دادن به سوالات تا پر کردن یک کلمه خالی در یک جمله ، انجام دادند.

محققان ، زیر شبکه های موفقی را یافتند که بسته به نوع کار ، 40 تا 90 درصد نازک تر از مدل اصلی BERT است. علاوه بر این ، آنها توانستند بلیط های قرعه کشی برنده را قبل از شروع هر کار تنظیم دقیق مشخص کنند – یافته ای که می تواند هزینه تخمینی NLP را به حداقل برساند. در بعضی موارد ، یک زیر شبکه انتخاب شده برای یک کار ممکن است به کار دیگری تغییر یابد ، اگرچه فرانکل خاطر نشان می کند که این قابلیت جابجایی جهانی نیست. با این وجود ، فرانکل بیش از نتایج این گروه خوشحال است.

او می گوید: “من از اینكه حتی این نتیجه هم داد ، شوكه شدم.” “این چیزی نیست که من آن را بدیهی بدانم. من انتظار داشتم نتیجه بسیار بزرگتری از آنچه که گرفتیم باشد.”

به گفته آری مورکوس ، دانشمند از Facebook AI Research ، این کشف بلیط برنده در مدل BERT “قانع کننده” است. موركوس می گوید: “این مدل ها در حال شیوع بیشتری هستند.” “به همین دلیل مهم است که بدانیم فرضیه بلیط قرعه کشی صحیح است.” وی افزود که این کشف می تواند به مدلهای BERT مانند امکان پردازش بسیار کمتری را بدهد ، “این می تواند بسیار تأثیرگذار باشد ، زیرا این مدلهای بسیار بزرگ در حال حاضر کار بسیار گرانی دارند.”

فرانکل موافق است. او امیدوار است که این کار بتواند BERT را در دسترس قرار دهد ، زیرا روند مدلهای همیشه در حال رشد NLP را دفع می کند. وی می گوید: “من نمی دانم با استفاده از این محاسبات به سبک ابر رایانه چقدر می توانیم بزرگتر شویم.” “ما باید مانع ورود را کاهش دهیم.” شناسایی یک زیرشبکه ضعیف و برنده قرعه کشی ، این کار را انجام می دهد – به توسعه دهندگانی که عضو محاسبات Google یا Facebook ندارند امکان ادامه NLP پیشرفته را دارد. فرانكل گفت: “اميد اين است كه هزينه ها را كاهش دهد ، و اين امر باعث مي شود كه در دسترس همه بيشتر باشد … براي پسران كوچكي كه فقط لپ تاپ دارند.” “برای من واقعا هیجان انگیز است.”

[ad_2]

منبع: unbox-news.ir