الگوریتم برت (Bert) یک الگوریتم یادگیری عمیق است که به پردازش زبان طبیعی می پردازد. این الگوریتم به ربات های جستجو کمک می کند کلمات در یک جمله بهتر درک شوند.
در 5 سال اخیر گوگل شروع به طراحی و توسعه این الگوریتم کرد و در تاریخ اکتبر 2019 اعلام کرد که از مدل های برت برای نمایش جستجوی زبان انگلیسی در امریکا استفاده می کند و در نهایت دسامبر 2019 گزارش شد که برت بیش از 70 زبان را در نتایج گوگل پذیرفته است.
بر خلاف مدل های قبلی که گوگل از آن استفاده می کرد، BERT یک نمایش عمیقاً دو طرفه ( چپ و راست یک عبارت یا جمله ) و بدون نظارت زبان استاندارد از یک متن ارائه می کند. عدم نظارت زبان استاندارد کمک می کند از متن های ساده و عامیانه (در الگوریتم برت زبان طبیعی نام برده می شود) در سایت خود استفاده کنیم و نتایج گوگل بر اساس سؤالات عامیانه ی کاربران به نمایش در آید. در ادامه می خواهیم با تعریف، شکل گیری این الگوریتم و تأثیر آن بر سئو به نتیجه بهتر فعالیت های خود برسیم.
- الگوریتم برت چیست و به دنبال چه هدفی است
- الگو ساختار قبل از الگوریتم برت
- الگو های ساختاری که منجر به الگوریتم برت شدند
- الگوریتم برت چطور کلمات را پیش بینی می کند
- الگوریتم برت چه تأثیری در سئو سایت دارد
- آیا الگوریتم برت می تواند مفید باشد
الگوریتم برت چیست و به دنبال چه هدفی است
برت مخفف (Bidirectional Encoder Representation for Transformers) به معنی معرفی رمزنگاری دوطرفه برای تغییر دهندهاست. برت اطلاعات را از چپ و راست یک عبارت یا متن را بررسی می کند ومثل مفاهیم مختلف در جمله را یاد می گیرد.
اگر بخواهیم یادگیری زبان را در لایه های مختلف تصور کنیم به طوری که یادگیری اولیه زبان و جملات ساده را در لایه اول تصور کنیم. الگوریتم برت به لایه های بالایی جملات دسترسی پیدا کرده است، به سراغ تشخص متن هایی مثل عبارات مشابه با معانی مختلف، پیش بینی ادامه جملات و پاسخ به سوالات می رود. به زبان ساده این الگوریتم به کمک ماشین می آید تا زبان انسان ها را بهتر بفهمد و حتی کوچکترین بخش های زبان مثل از، به وغیره را درک کند و نتایج بهتری را برای گوگل داشته باشد.
گوگل بهروزرسانی برت را با انگیزه ای برای افزایش کیفیت جستجو راهاندازی کرد. به همین خاطر گفته می شود که این الگوریتم یکی از مهمترین به روزرسانی های گوگل در سال اخیر است. پیشنهاد میکنیم مقاله جامع ترین مطلب درباره سئو در بلاگ آی وحید بخوانید.
الگو ساختار کلمات قبل از الگوریتم برت
قبل از برت، الگو NLP از ویژگی های مبتنی بر کلماتی که بیشتر کاربرد در متن دارد (اصطلاحات اصلی در متن مثل کلمات کلیدی) استفاده می کرد. اکثر تحقیقات جستجو ، برای جاسازی کلمات از بردار در فضا کمک گرفتند تا درک بهتری از روابط و معانی مختلف کلمات پیدا کنند. در اینجا هر کلمه ای را در فضای بردار خود نشان دادیم و کلماتی با معنای یکسان نزدیک به یکدیگر رسم کرد.این روش جاسازی کلمات از مدل Word2Vec شروع شد تا الگو خود را به کاربران نشان دهد.
الگو Word2Vec اطلاعات خطی (ارتباط آنها به سادگی تشخیص داده می شود) را ذخیره می کند و در نتیجه بردارهای یکسانی برای کلمات مشابه در متن های مختلف نمایش می دهد. کلماتی که این ارتباط خطی را دارند به اسم Polysemy شناخته شدند و در نهایت راهی را برای مدل های پیچیده و عمیق تر باز کردند.
بر خلاف روش سنتی پردازش تصویر ، مدل word2vec که هر کلمه ای را به صورت برداری ترسیم می کرد. مدل های کلمات ما نیاز به تگ دارند چون نسبت به متن پاسخگو نیستند و نمی توان پیش بینی برخی از کلمات را درنظر گرفت چون کلمات بر روی یک بردار معنایی ثابت قرار دارند.
الگوهای ساختاری که منجر به ایجاد الگو برت شدند
در قسمت قبلی راجب کلماتی که ارتباط خطی دارند مثل Polysemy صحبت کردیم. چنین روش هایی به ما کمک کردند که به دنبال روشی برای پاسخ گویی به مشکلات کلمات Polysemy ، کلمات مشابه یا کلمات با معانی مختلف باشیم. روش ELMo برای رفع چنین مشکلاتی به روی کار آمد.
الگو ELMo کمک می کند تا به گذشته و آینده معنی یک کلمه نگاه کنید، کل جمله را به صورت بردار خطی بررسی می کنید ودر آخر بردار منحصر به فردی برای کلمات خطی ایجاد کنید.
OpenAI GPT روش دیگری است که بعد از ELMo مورد استفاده قرار گرفت واز تحقیقات گوگل برین به پایه شبکه ای پیشنهاد شد. الگو OpenAI GPT معماری ساده تری نسبت به الگوهای قبل از خود دارد ومی تواند سریع تر از مدل های دیگر آموزش ببیند. در تصویر پایین دو الگو گفته شده همراه الگو برت را مقایسه کردیم به سادگی مشخص که الگو برت ادغامی از دو روش قبلی خودش می باشد.
در مدل زبان طبیعی (NLP) BERT کاملاً دو طرفه است ، OpenAI GPT یک طرفه است و ELMo کم عمق دو طرفه است. در حالت کم عمق دو طرفه مطمئناً برد محدودتری در کلمات دارد و نمی تواند ارتباط یا تفاوت بین جستجو ها را تشخیص دهد. این نتایج نشان می دهد، این بروزرسانی یک قدم بزرگ در تلاش گوگل برای درک نحوه تفکر انسان است.
الگوریتم برت چطور کلمات را پیش بینی می کند
گفتیم الگوریتم برت از زبان طبیعی در الگو خود استفاده می کند واز طرف دیگر زبان طبیعی از مدل زبان ماسک شده MLM کمک می گیرد تا جستجوی کاربران را قبل از اینکه جملات به پایان برسد حدس بزنند. مدل زبان ماسک با هدف آموزش مخفی کردن یک کلمه در جمله ، کمک می کند تا برنامه ای را پیش بینی کنید که چه کلمه ای در متن مخفی (نقاب) شده است.
در نتیجه برت با استفاده از آموزش مدل زبان ماسک شده (MLM) بر محدودیتهای یک طرفه پیشی می گیرد. (مدل های زبان قبلی فقط می توانند متن را به صورت متوالی بخوانند، از چپ به راست یا راست به چپ اما نمی توانستند هر دو را همزمان انجام دهند) MLM به برت کمک می کند که دوطرفه متن را به صورت متوالی بخواند.
مدل MLM بطور تصادفی به برخی از نشانه های ورودی مثلاً جستجو ماسک می زند تا کلمه نقاب شده را بر اساس متن پیش بینی کند. به این ترتیب MLM می تواند تا چپ و راست یک جمله را به دنبال هم پیدا کند. البته برت به غیر ازMLM ، از عملکرد دیگری نیز برای پیش بینی دنباله (جمله یا اصطلاح ) بعدی استفاده می کند.
در نتیجه ، مدل BERT می تواند مدل های پیشرفته ای برای نمایش طیف گسترده ای از کارها ، مانند پاسخگویی به سؤال، استنباط زبان وغیره را بدون انجام کار اساسی ایجاد کند.
الگوریتم برت (Bert) چطور آغاز به کار کرد
در آغاز کار برت به طور رسمی 10٪ نتایج جستجوی گوگل را تحت تأثیر قرار داد. با وجود میلیون ها جستجوی روزانه، همین مقدار برای کل نتایج جستجو بسیار زیاد است و از ابتدا تأثیر زیادی به نتایج جستجو به زبان انگلیسی گذاشت ودر ادامه در نتایج 70 زبان تاثیر گذاشت.
الگوریتم برت چه تأثیری در سئو سایت دارد
الگوریتم برت توانسته با پاسخ دادن به سؤالات ، پیش بینی جملات و درک زبان طبیعی بهینه سازی نتایج جستجو را انجام می دهد. درک زبان طبیعی شامل تفسیر یک کلمه ، طبقه بندی تمایلات کاربران و پایان بندی عامیانه جملات است که می تواند برای کاربران اهمیت و کاربرد زیادی را داشته باشد.
گوگل از این الگوریتم برای امتیاز و رتبه دهی به سایت ها از این الگوریتم استفاده می کند و درصورتی که محتوا و نوشته های سایت شما به زبان ساده و عامیانه باشد، کاربران راحت تر ارتباط برقرار می کنند و گوگل رتبه بهتری به این سایت ها می دهد. به طور مختصر تأثیرات برت بر سئو را می توانید به راحتی در این لیست مطالعه کنید.
- تأثیر زیادی را بر نتایج جستجوی صوتی و متنی گذاشته است.
- تکنیک های NLP (زبان طبیعی یا عامیانه) این الگوریتم، گوگل را حساس به خطا کرده است.
- به دلیل مهارتی که الگوریتم برت در درک متن ها پیدا کرده است، بدون درک کامل زبان استاندارد، الگوی خود را به زبان های مختلف به اشتراک می گذارد و کلمات را تفسیر می کند. به همین خاطر برت در سئو بین المللی تاثیر زیادی می گذارد.
آیا الگوریتم برت می تواند مفید باشد
باوجود اینکه این الگوریتم شرایط را برای بسیاری از سایت ها سخت کرده و رتبه سایت آنها را پایین آورده است. ولی می توان به این الگوریتم دید مثبت داشت. الگوریتم برت متن باز (Open Sourse) است یعنی هرکسی می تواند از آن استفاده کند.
گوگل ادعا می کند که کاربران می توانند تنها 30 دقیقه در واحد پردازش (TPU) محتوای اطلاعاتی خود را تغییر دهند و البته طی چند ساعت در واحد گرافیکی یک سیستم پیشرفته پرسش و پاسخ ترتیب دهند. در حال حاضر بسیاری از سازمان ها و گروه های تحقیقاتی و گروه های وابسته به گوگل در حال تنظیم معماری برت برای آموزش با نظارت هستند تا از آن برای بهینه سازی انجام کارهایی خاص یا پیش آموزش ( مثلاً تغییر نرخ یادگیری ) استفاده کنند. مواردی که از الگوریتم برت استفاده شده و می تواند برای افراد مفید باشد را در لیست پایین مشاهده می کنید.
- patentBERT: این الگوریتم از یک مدل برت دقیق برای طبقه بندی و دسته بندی قانون حق اختراع استفاده می کند.
- SciBERT: یک الگوی پیش فرض است که بیشتر برای مطالب علمی استفاده می شود.
- VideoBERT: این الگوی برت به شکل بصری و زبانی است که برای فهمیدن جملات درون ویدئو های بدون تگ در یوتیوب است. الگو ویدئو برت، بر روی بیش از یک میلیون فیلم آموزشی در گروه های مختلف مانند آشپزی ، باغبانی و تعمیر وسایل نقلیه انجام شده است.
- TinyBERT by Huawei: این الگو نتایج بهتری را نسبت به خود برت اصلی دارد، 7.5 برابر کوچک تر و 9.4 سریع تر از خود الگوریتم برت است.
سخن آخر
الگوریتم برت توانست با ساختار ساده خود کمک بزرگی به بهتر شدن نتایج جستجو کند تا بهتر از گذشته زبان انسان را درک کند. گوگل با بروزرسانی جدید خود نشان داد به کمک الگوریتم برت می تواند محتوایی که برای کاربر نوشته شده را بهتر بفهمد، نتایج جستجو را هوشمند تر کند ومیزان خطای جستجو خود را به پایینترین حد ممکن برساند. وبسایت ها باید به زبان محاوره کاربران بیشتر توجه نشان دهند، با محتوای خود پاسخی به کاربران دهند تا رتبه خود را در گوگل حفظ کنند.