همه‌ی ما می‌دانیم که پردازنده یا CPU در حکم مغز یک کامپیوتر است، اما این عبارت واقعاً به چه معنی است؟ چه چیزی درون یک تراشه و در میان میلیاردها ترانزیستور اتفاق می‌افتد تا یک کامپیوتر به کار بیفتد و دستورالعمل‌های پیچیده را اجرا کند؟ در این مقاله قصد داریم به واکاوی یک CPU بپردازیم و هر آنچه از درون و بیرون باعث به‌کارافتادن یک پردازنده می‌شود را شرح دهیم. در این مقالات سعی خواهیم کرد مباحثی نظیر معماری کامپیوتر، اجزای سازنده‌ی تراشه، روشِ طراحی مدارهای پردازنده، مفهوم VLSI یا تجمیع در ابعاد بسیار بزرگ، ساخت فیزیکی تراشه و فناوری‌های مربوطه و خط‌مشی آینده‌ی اجرای محاسبات در کامپیوترها را پوشش دهیم.

 

چرخه‌ی اجرای دستورالعمل در یک پردازنده
بحث خود را با روش کار یک پردازنده و کارهایی که این قطعه‌ی سخت‌افزاری قادر به انجام آن است، شروع می‌کنیم و خواهیم دید که چگونه بلوک‌های ساختاری در یک طراحی عملیاتی گرد هم می‌آیند. این بلوک‌های ساختاری شامل هسته‌های پردازنده، سلسله‌مراتب حافظه، پیش‌بینی‌گر انشعاب (Branch Prediction) و دیگر اجزا است.

ساده‌ترین توضیح پیرامون روش کار یک پردازنده، همان توضیح آشنایی است که به گوش همه‌ی ما رسیده است. پردازنده از یک سری دستورالعمل برای انجام پاره‌ای از اعمال روی مجموعه‌ای از ورودی‌ها پیروی می‌کند و نتایج خروجی‌ را بازمی‌گرداند. این عملیات‌ ممکن است شامل خواندن یک مقدار از حافظه، افزودن آن به مقداری دیگر و در نهایت بازگرداندن نتیجه به محل یا آدرس متفاوتی در حافظه باشد. محاسبه ممکن است پیچیده‌تر نیز باشد؛ مثلا به کامپیوتر بگوییم اگر حاصل محاسبه‌ی قبلی بیشتر از مقدار صفر شد، دو عدد را بر یکدیگر تقسیم کن.

برای اینکه برنامه‌ای نظیر یک سیستم‌عامل یا یک بازی در کامپیوتر اجرا شود، آن برنامه که به‌صورت مجموعه‌ای از دستورالعمل‌ها در حافظه قرار دارد، برای اجرا در اختیار پردازنده قرار می‌گیرد. این دستورالعمل‌ها از حافظه بارگیری شده و در ساده‌ترین حالت ممکن، یکی پس از دیگری اجرا می‌شود تا روند اجرای برنامه پایان یابد. توسعه‌دهندگان نرم‌افزار برنامه‌های خود را با زبان‌های برنامه‌نویسی سطح بالایی نظیر C++ یا پایتون می‌نویسند که برای پردازنده به‌صورت خام قابل درک نیست. همان‌طور که می‌دانید، پردازنده‌ها فقط زبان صفرها و یک‌ها را متوجه می‌شوند، پس باید راهی پیدا کنیم که دستورالعمل‌ها یا کدهای هر برنامه و نرم‌افزار به چنین فرمتی تبدیل شوند.

کدهای برنامه‌ به مجموعه‌ای از دستورالعمل‌های سطح پایین با نام زبان اسمبلی ترجمه (کامپایل) و تبدیل می‌شوند که بخشی از معماری مجموعه دستورالعمل (‌ISA) یا به اختصار معماری پردازنده است. این همان مجموعه دستورالعمل‌هایی است که پردازنده برای درک و اجرای آن ساخته شده است. اصلی‌ترین معماری‌های مجموعه دستورالعمل یا به اختصار ‌ISAها شامل x86، آرم، MIPS، معماری PowerPC و RISC-V می‌شود. زبان‌های برنامه‌نویسی مختلف نحوه‌ی نگارش و قرارگیری کلمات و عبارات و کدهای متفاوتی دارند که به آن سینتکس گفته می‌شود؛ همان‌طور که زبان‌های سطح بالایی مثل C++ و پایتون سینتکس متفاوتی دارد، ‌ISA هم سینتکس جداگانه‌ای دارند.

 

 

مراحل تبدیل کدهای سطح بالای یک برنامه به زبان ماشین

معماری‌های مجموعه دستورالعمل به دو شاخه‌ی اصلی قابل تجزیه است؛ طول ثابت و طول متغیر. معماری RISC-V از دستورالعمل‌هایی با طول ثابت استفاده می‌کند؛ یعنی هر دستورالعمل تعداد بیت معین از پیش تعریف‌شده‌ای دارد که نوع آن دستورالعمل را تعریف می‌کند. در مقابل معماری x86 از دستورالعمل‌هایی با طول متغیر استفاده می‌کند. در معماری x86، امکان رمزنویسی (Encoding) دستورالعمل‌ها با روش‌های متفاوت و تعداد بیت‌های مختلف برای بخش‌های مختلف وجود دارد. به دلیل وجود چنین پیچیدگی، رمزگشایی (Decoding) دستورالعمل در پردازنده‌های x86 معمولاً با پیچیده‌ترین جزء در کل طراحی اجرایی می‌شود.

دستورالعمل‌های طول ثابت به دلیل ساختار متداول خود امکان رمزگشایی به مراتب ساده‌تری دارند، اما تعداد کل دستورالعمل‌هایی را که یک ‌ISA قادر به پشتیبانی از آن است، محدود می‌کند. در حالی که نسخه‌های متداول معماری RISC-V فقط چیزی در حدود ۱۰۰ دستورالعمل دارند و منبع باز هستند، معماری x86 یک دارایی فکری متعلق به اینتل است و و عدد دقیقی از تعداد دستورالعمل‌های این معماری در دسترس نیست. این باور وجود دارد که این معماری از چندهزار دستورالعمل پشتیبانی می‌کند؛ اما تعداد دقیق آن‌ها اعلام نشده است. باوجود تفاوت‌هایی که در میان معماری‌های مجموعه دستورالعمل وجود دارد، اصول زیربنایی تمامی آن‌ها ضرورتاً یکسان است.

 

 

مثالی از دستورالعمل‌های مربوط به معماری RISC-V، کدهای عملیاتی (Opcode) نگارش‌شده در سمت راست همگی ۷ بیتی (با طول ثابت) هستند و نوع دستورالعمل را تعیین می‌کند

اکنون مروری بر نحوه‌ی اجرای یک برنامه یا مجموعه‌ی کدهای نوشته‌شده‌ی آن توسط یک کامپیوتر خواهیم داشت. اجرای یک دستورالعمل در حقیقت شامل چند بخش اساسی است که در مراحل مختلف کار یک پردازنده به بخش‌های کوچکتری تجزیه می‌شوند. در ادامه این بخش‌های کلی با زبانی ساده تبیین خواهد شد.

اولین مرحله واکشی دستورالعمل (Fetch) از حافظه به پردازنده برای آغاز اجرا است. در مرحله‌ی دوم، دستورالعمل رمزگشایی (Decode) می‌شود تا پردازنده تشخیص دهد با چه نوع دستورالعملی سر و کار دارد. انواع زیادی از دستورالعمل‌ها شامل دستورالعمل‌های حسابی، دستورهای انشعاب و دستورالعمل‌های حافظه ممکن است برای اجرا در اختیار پردازنده قرار گیرد. به محض آنکه پردازنده دانست با چه نوع دستورالعملی سروکار دارد، عملوند‌های (Operand) مرتبط با دستورالعمل از حافظه یا ثبات‌های داخلی در CPU جمع‌آوری می‌شود. برای توضیح بیشتر، اگر بخواهیم طبق دستورالعمل، عدد A و عدد B را با یکدیگر جمع کنیم، تا زمانی‌که مقادیر دقیق عملوند‌های A و B مشخص نباشد، انجام عمل جمع ناممکن است. پس از آنکه پردازنده عملوندها را برای جایگذاری در دستورالعمل فراخواند، وارد مرحله‌ی اجرای دستورالعمل می‌شود که در آن عملیاتی روی مقادیر ورودی انجام می‌شود. این عملیات می‌تواند جمع اعداد ورودی، انجام یک عملیات دستکاری منطقی روی اعداد یا عبور دادن اعداد بدون اصلاح آن‌ها باشد. پس از محاسبه‌ی نتیجه ممکن است نیاز به دسترسی به حافظه برای ذخیره‌ی مقدار نتیجه باشد یا ممکن است پردازنده نتیجه را فقط در یکی از ثبات‌های داخلی خود نگه دارد. پس از ذخیره‌سازی نتیجه، پردازنده وضعیت المان‌های مختلف را به‌روزرسانی می‌کند و آماده‌ی اجرای دستورالعمل بعدی می‌شود.

بیشتر پردازنده‌های مدرن ۶۴ بیتی هستند؛ یعنی مقادیر داده‌ها را با پهنای باند ۶۴ بیتی از آدرس‌های حافظه و ثبات‌ها فرا می‌خوانند و مورد پردازش قرار می‌دهند و نتایج پردازش را به آدرس‌های حافظه باز می‌گردانند. بنابراین یک معماری پردازنده ۶۴ بیتی در مقایسه با یک مدل ۳۲ بیتی امکان فراخوانی و پردازش دو برابر داده را در آن واحد دارد.

 

 

توضیحاتی که در در مورد نحوه‌ی عملکرد یک پردازنده ارائه شد، بسیار خلاصه و ساده‌سازی شده بود. بیشتر پردازنده‌های مدرن مراحل معدود یادشده را برای افزایش بازدهی به دست‌کم ۲۰ مرحله‌ی خردتر تقسیم می‌کنند. به عبارت دیگر، هر چند یک پردازنده در هر چرخه‌ی کاری یا سیکل کلاک اجرای چندین دستورالعمل را شروع می‌کند، ادامه می‌دهد و به سرانجام می‌رساند؛ اما برای اجرای هر دستورالعمل از آغاز تا اتمام، ممکن است ۲۰ سیکل کلاک یا حتی بیشتر لازم باشد. به چنین مدلی در اصطلاح یک پایپ‌لاین اطلاق می‌شود. پر شدن یک خط لوله با سیال در جریان مدتی به طول می انجامد، اما پس از آن یک خروجی پایدار و ثابت از آن سیال به دست می‌آید. در پایپ‌لاین پردازنده، به‌جای سیال دستورالعمل‌ها به جریان می‌افتند.

چرخه‌ی کامل اجرای یک دستورالعمل فرایندی پیچیده و محاسبه‌شده است، اما این به‌معنای اجرای هم‌زمان تمامی دستورالعمل‌ها نیست. برای مثال عمل جمع با سرعت بسیار زیاد اجرا می‌شود؛ اما عملیات‌هایی مثل تقسیم یا بارگذاری از حافظه ممکن است صدها سیکل کلاک به طول بیانجامد. به‌جای معطل‌کردن کل ساختار پردازنده برای اتمام یک دستورالعمل کنداجرا، بیشتر پردازنده‌های مدرن به نحوی بدون پیروی از نظم و ترتیب خاص کار می‌کنند. به عبارت دیگر پردازنده تعیین می‌کند که اجرای چه دستورالعملی در زمانی معین بیشترین سودمندی را دارد و در عین حال سایر دستورالعمل‌هایی را که هنوز آماده اجرا نیست، بافر می‌کند. اگر دستورالعمل جاری هنوز آماده‌ی اجرا نباشد، پردازنده در خطوط کد به جلو پرش می‌کند و به‌دنبال به بخشی از دستورالعمل که آماده‌ی اجرا است می‌گردد.

دستورالعمل‌ها به‌مانند سیالی در پایپ‌لاین پردازنده به جریان می‌افتد و در هر مرحله از پایپ‌لاین، پردازش دستورالعمل‌های متعددی در جریان است
برخی از پردازنده‌های مدرن امروزی، علاوه بر اجرای نامنظم دستورالعمل‌ها، روشی با نام معماری سوپراسکالر را به کار می‌بندند. با این روش در هر زمان معین، پردازنده در حال اجرای دستورالعمل‌های بسیاری در یک مرحله‌ی خاص از پایپ‌لاین (مثل مرحله‌ی واکشی، رمزگشایی، اجرا و ذخیره‌سازی) است. در عین حال ممکن است پردازنده منتظر صدها دستورالعمل دیگر برای آغاز اجرا باشد.

 

در شکل فوق، هر مربع رنگی نشان‌دهنده‌ی یک دستورالعمل (کد) در پایپ‌لاین، در انتظار ورود به آن یا اجراشده و خارج‌شده از پایپ‌لاین است. در هر مرحله از پایپ‌لاین کدهای متفاوتی در حال پردازش بوده و در عین حال ممکن است دستورالعمل‌های زیادی در بافر منتظر ورود به پایپ لاین باشند.

در اینجا بهتر است با مفهوم IPC که تأثیر به‌سزایی در سطح عملکرد یک پردازنده دارد، آشنا شویم. IPC مخفف عبارت Instruction per Clock است که مفهوم آن میانگین تعداد دستورالعمل‌های اجراپذیر در هسته‌های پردازنده در هر سیکل کلاک است. محاسبه‌ی IPC در یک ماشین کار نسبتا پیچیده‌ای است. برای انجام این کار مجموعه‌ای به‌خصوص از کدها برای اجرا به ماشین داده می‌شود و تعداد دستورالعمل‌های سطح ماشین برای تکمیل اجرای آن کدها محاسبه می‌شود. در گام بعد، با استفاده از زمان‌سنج‌های سطح بالا تعداد سیکل‌های کلاک موردنیاز برای کامل‌کردن آن تعداد دستورالعمل روی سخت‌افزار واقعی اندازه‌گیری می‌شود. با تقسیم تعداد دستورالعمل‌ها بر تعداد سیکل‌های کلاک اندازه‌گیری‌شده، رقم IPC ماشین مورد نظر محاسبه می‌شود. با ضرب IPC اندازه‌گیری‌شده در سرعت کلاک (بر حسب هرتز) و تعداد هسته‌های پردازنده، تعداد دستورالعمل اجراشدنی در هر ثانیه یا تعداد عملیات‌های ممیز شناوری محاسبه می‌شود که در هر ثانیه به‌وسیله‌ی پردازنده‌ی مدنظر اجراشدنی است. در نهایت، تعداد دستورالعمل‌های اجراشدنی به‌وسیله‌ی پردازنده در هر ثانیه که با واحد گیگافلاپس یا میلیارد عمل اعشاری در ثانیه بیان می‌شود، معیاری از سطح عملکرد پردازنده‌ی مدنظر است.

تعداد دستورالعمل‌های اجراپذیر در هر سیکل کلاک برای پردازنده عدد ثابتی نیست و بستگی به نحوه‌ی تعامل و برهمکنش نرم‌افزار و برنامه‌ی در حال اجرا با بخش سخت‌افزاری سیستم دارد. با وجود این، طراحان تراشه سعی می‌کنند، با تکیه بر روش‌هایی مانند استفاده از چندین واحد محاسبه‌گر منطقی (ALU) در هر هسته و پایپ‌لاین‌های دستورالعمل کوتاه‌تر، عدد IPC را در مقایسه با مقدار متوسط آن افزایش دهند.

مجموعه دستورالعمل‌ها (Instruction Set) نیز بر عدد IPC پردازنده تأثیرگذار است. هرچه مجموعه دستورالعمل‌ها ساده‌تر باشد، IPC پردازنده افزایش می‌یابد و هرچه با دستورالعمل‌های پیچیده‌تری روبه‌رو باشیم، بالتبع IPC کاهش پیدا می‌کند. بنابراین، IPC پردازنده برای اجرای محاسبات ممیز شناور با دقت واحد (FP32) در مقایسه با اجرای محاسبات با دقت مضاعف (FP64) عدد بزرگ‌تری است. آنچه میزان کارایی پردازنده را مشخص می‌کند، ترکیبی از IPC و سرعت کلاک و تعداد هسته‌ها است. با این حال، سازندگان پردازنده عموما عدد IPC را در مشخصات رسمی آن ذکر نمی‌کنند.

برای آنکه پردازنده به‌طور هم‌زمان قادر به اجرای دستورالعمل‌های زیادی باشد، ممکن است کپی‌های زیادی از هر مرحله پایپ‌لاین ایجاد کند. اگر پردازنده بداند که دو دستورالعمل به‌طور هم زمان آماده‌ی اجرا است و وابستگی بین آن‌ها وجود ندارد و نیازی به اتمام یکی و آغاز دیگری نیست، هر دو دستورالعمل را در یک زمان به اجرا در می‌آورد. یکی از راه‌های پیاده‌سازی این راهکار، پردازش چندرشته‌ای هم‌زمان (Simultaneous Multithreading ) یا SMT است. پردازنده‌های اینتل و AMD در حال حاضر از شیوه‌ی SMT دوخطی استفاده می‌کنند. در این پردازنده‌ها هر هسته‌ی فیزیکی به دو هسته مجازی تقسیم‌بندی شده و هر هسته‌ی به‌دست‌آمده یک ترد یا رشته نام‌گذاری می‌شود. بدین ترتیب هر هسته امکان اجرای دو جریان یا دو رشته دستورالعمل را به‌طور هم‌زمان خواهد داشت. IBM در حال توسعه‌ی پردازنده‌هایی با قابلیت اجرای SMT هشت خطی است.

 

مولتی تردینگ یا پردازش هم‌زمان چند رشته در هر هسته، باعث کاهش چشمگیر زمان اجرای دستورالعمل می‌شود

برای اجرای حساب‌شده‌ی چنین فرایندی، یک پردازنده علاوه بر هسته‌های اصلی از اجزای اضافی زیادی برخوردار است. صدها ماژول مجزا در یک پردازنده وجود دارد که هر یک هدف خاصی را برآورده می‌کنند. در این مقاله به جهت پرهیز از اطاله‌ی کلام تنها به بررسی دو قسمت اصلی حافظه کش و پیش‌بینی‌گر انشعاب بسنده خواهیم کرد. اجزای دیگری نظیر بافرهای بازآرایی، Register Alias Table و ایستگاه‌های رزرواسیون وجود دارد که در این مقاله از توضیح آن‌ها صرف‌نظر می‌شود.

مفهوم حافظه‌ی کش ممکن است کمی گیج‌کننده باشد، چرا که آن‌ها درست مثل رمِ سیستم یا درایو SSD داده‌ها را در خود ذخیره می‌کنند؛ اما آنچه باعث تمایز حافظه‌ی کش از قطعات مشابه خود می‌شود، سرعت بسیار بالاتر و تأخیر کمتر در دسترسی به داده‌ها است. هر چند حافظه‌ی رم سیستم بسیار سریع است، سرعت آن برای همگام‌شدن با فرآیندهای اجرای دستورالعمل پردازنده همچنان بسیار نارسا است. تأمین داده‌های مورد نیاز پردازنده از سوی حافظه‌ی رم ممکن است صدها سیکل کلاک به طول بیانجامد و امکان تغذیه‌ی به‌هنگام پردازنده‌ای که تنها در یک سیکل کلاک چندین دستورالعمل را اجرا می‌کند، با چنین سرعتی وجود ندارد. حالا اگر داده‌ها هنوز روی حافظه‌ی رم قرار نگرفته باشد، دسترسی به داده‌های مورد نیاز در حافظه SSD ده‌ها هزار سیکل کلاک به طول می‌انجامد. بدون وجود حافظه‌های به مراتب سریع‌تر کش، پردازنده از کار باز خواهد ماند.

 

سلسله مراتب و میزان تأخیر در دسترسی پردازنده به اجزای مختلف حافظه در سیستم

پردازنده‌ها به‌طور معمول ۳ سطح از حافظه‌ی کش را در خود دارند که بخشی از ساختاری با نام سلسله‌مراتب حافظه را شکل می‌دهد. کش سطح ۱ (L1) کوچک‌ترین و سریع‌ترین حافظه‌ی کش موجود در تراشه است، کش سطح ۲ (L2) از این نظر وضعیت متعادلی دارد و سومین سطح از حافظه‌ی کش (L3) کندترین و بیشترین بخشِ حافظه‌ی کش را به خود اختصاص می‌دهد. در سلسله مراتب حافظه‌ی یک پردازنده، ثبات‌های کوچک یک مرحله بالاتر از حافظه‌ی کش قرار دارد که در خلال محاسبه یک مقدار داده‌ی واحد (۱ بیت) را به خود می‌گیرد. این ثبات‌ها سریع‌ترین تجهیزات ذخیره‌سازی در یک سیستم کامپیوتری هستند که سرعت آن‌ها چندین‌برابر اجزای دیگر است. زمانی‌که کامپایلر برنامه سطح بالا را به زبان اسمبلی ترجمه می‌کند، بهترین راه به‌کارگیری این ثبات‌ها را نیز تعیین می‌کند.

زمانی‌که پردازنده داده‌ها را از حافظه فرامی‌خواند، ابتدا بررسی می‌کند آیا داده‌های مورد نظر در حال حاضر در کش سطح ۱ قرار گرفته یا خیر. اگر داده‌های مورد نظر در این کش قرار گرفته باشد، به سرعت و ظرف یکی دو سیکل کلاک در اختیار پردازنده قرار می‌گیرند. اگر داده‌ها در کش L1 قرار نگرفته باشند، پردازنده همین روال را در مورد کش سطح ۲ و سپس کش سطح ۳ پیگیری می‌کند. قطعات حافظه‌ی کش به نحوی پیاده‌سازی می‌شود که محتوای آن برای هسته کاملاً شفاف باشد. هسته تنها داده‌ها را در آدرس مشخصی از حافظه درخواست می‌کند و هر سطحی از حافظه‌ی کش که در سلسله مراتب، داده‌های مورد نظر را در خود ذخیره داشته باشد به‌سرعت پاسخ پردازنده را خواهد داد. با حرکت به سمت مراحل بعدی در سلسله مراتب حافظه، اندازه و میزان تأخیر حافظه عموماً تا چندین برابر افزایش می‌یابد. در آخر اگر پردازنده نتواند داده‌ها را در یکی از سطوح کش بیابد، به ناچار و با واسطه‌ی جزیی از پردازنده با نام کنترلر حافظه، به حافظه اصلی (رم) مراجعه خواهد کرد.

در یک پردازنده‌ی معمولی، هر هسته از دو جزء حافظه کش سطح یک برخوردار است؛ یکی از آن‌ها برای ذخیره‌‌ی داده و دیگری برای ذخیره‌ی دستورالعمل‌ها استفاده می‌شود. ظرفیت کش سطح یک در مجموع حدود ۱۰۰ کیلوبایت است و اندازه‌ی آن بسته به نوع تراشه، نسل و فناوری ساخت متغیر است. معمولاً هر هسته با یک کش سطح ۲ اختصاصی همراه می‌شود؛ گرچه گاه این قطعه از حافظه کش بین دو هسته به اشتراک گذارده می‌شود. ظرفیت کش سطح دو معمولاً از چند صد کیلو بایت تجاوز نمی‌کند. در نهایت کش سطح ۳ بین تمام هسته‌ها به اشتراک گذارده می‌شود و ظرفیتی معادل چند ده مگابایت دارد.

 

نحوه‌ی توزیع حافظه‌ی کش در بین هسته‌های پردازنده‌ای با معماری ذن AMD

وقتی یک پردازنده در حال اجرای یک قطعه کد است، دستورالعمل‌ها و مقادیر داده‌ای که به آن نیاز است، در حافظه‌ی کش ذخیره‌سازی شده یا به اصطلاح کش می‌شود. با این شیوه سرعت اجرا به‌طور چشمگیری افزایش می یابد؛ چرا که پردازنده برای دستیابی به داده‌های مورد نیاز خود نیازی به تعامل دائمی با حافظه‌ی اصلی ندارد. در مورد نحوه‌ی قرارگیری حافظه‌ی اصلی و SSD در زیر لایه‌های بعدی سلسله‌مراتب حافظه، در ادامه بیشتر صحبت خواهیم کرد.

گذشته از حافظه‌ی کش، یکی از بلوک‌های ساختاری کلیدی هر پردازنده‌ی مدرن بخشی است که پیش‌بینی‌گر انشعاب خوانده می‌شود. دستورالعمل‌های انشعاب شبیه به گزاره‌ی «اگر» برای یک پردازنده است. اگر شرایطی برقرار باشد (If True)، یک مجموعه از دستورالعمل‌ها اجرا می‌شود و اگر آن شرایط برقرار نباشد (If False)، مجموعه دستورالعمل دیگری به اجرا گذارده می‌شود. برای مثال دو مقدار عددی با یکدیگر مقایسه می‌شود و اگر آن دو مقدار برابر باشد، عملیات معینی اجرا می‌شود. حال اگر این دو مقدار نابرابر باشد، بایستی عملیات دیگری اجرا شود. چنین دستورالعمل‌های انشعابی به‌شدت در پایپ‌لاین رایج بوده و ممکن است حداکثر ۲۰ درصد تمامی دستورالعمل‌ها را دربرگیرد.

این دستورالعمل‌های انشعاب در ظاهر ممکن است چندان مسئله‌ی مهمی به نظر نرسد، اما در عمل چالشی بر سر راه عملکرد درست یک پردازنده است. از آنجایی که پردازنده در هر مقطع زمانی ممکن است در حال اجرای ۱۰ یا ۲۰ دستورالعمل به‌طور هم‌زمان باشد، دانستن اینکه چه دستورالعمل‌هایی باید به اجرا درآید، حائز اهمیت است. پنج سیکل کلاک برای شناسایی یک دستورالعمل انشعاب لازم است و ده سیکل کلاک دیگر باید طی شود تا مشخص گردد، آیا شرایط مورد نظر انشعاب برقرار هست یا نیست. در این بازه‌ی زمانی، پردازنده ممکن است پردازش ده‌ها دستورالعمل اضافی را بدون آنکه حتی بداند دستورالعمل‌های درستی (از نظر سازگاری با انشعاب) برای اجرا انتخاب شده‌اند، آغاز کند.

برای غلبه بر این مشکل، تمامی پردازنده‌های رده‌بالا از تکنیکی با نام Speculation استفاده می‌کنند. با این شیوه پردازنده با برخورداری از واحدی به نام پیش‌بینی‌گر انشعاب دستورالعمل‌های انشعاب را تعقیب می‌کند و حدس می‌زند که آیا انشعاب معین اختیار خواهد شد یا خیر. اگر این پیش‌بینی درست از آب در بیاید، پردازنده از قبل، اجرای دستورالعمل‌های پس‌آیند سازگاری را آغاز می‌کند و عملکرد تسریع می‌شود و بهبود می‌یابد. اما اگر پیش‌بینی نادرست باشد، پردازنده روند اجرا را متوقف می‌کند، تمامی دستورالعمل‌های نادرستی که اجرای آن‌ها آغاز شده حذف می‌شود و مراحل اجرا از آخرین نقطه‌ی درست، از سر گرفته می‌شود.

 

طرح کلی معماری هسته‌ی Zen 2 و جایگاه پیش‌بینی‌گر انشعاب (بلوک سبزرنگ) در آن

پیش‌بینی‌گرهای انشعاب به نوعی پایه‌ای‌ترین اشکال یادگیری ماشین هستند؛ چرا که پیش‌بینی‌گر رفتار انشعاب‌ها را با جریان یافتن دستورالعمل‌ها در آن پیش‌بینی می‌کند. اگر پیش‌بینی‌گر به دفعات زیاد پیش‌بینی غلط انجام دهد، به‌زودی رویکرد درست را خواهد آموخت. دهه‌ها تحقیق در مورد فنون پیش‌بینی انشعاب سبب شده است که در پردازنده‌های مدرن امروزی، در بیش از ۹۰ درصد موارد پیش‌بینی‌های درستی انجام شود. تکنیک Speculation پردازنده را قادر به اجرای دستورالعمل‌هایی می‌کند که به‌جای قرار گرفتن در صفوف شلوغ داده، از قبل آماده‌ی پردازش است؛ در عین حال پردازنده را در معرض آسیب‌های امنیتی نیز قرار می‌دهد. حفره‌ی امنیتی مشهور Spectre حملات خود را از راه پیش‌بینی‌گر انشعاب و با نفوذی مبتنی ‌بر Speculation تحمیل می‌کند. بنابراین برخی از جنبه‌های این تکنیک باید بازبینی و بازطراحی شود تا از نفوذ دستورالعمل‌های غیر ایمن در پایپ‌لاین و نشتی اطلاعات حافظه جلوگیری به عمل آید؛ حتی اگر تأثیر کوچکی بر سطح عملکرد بگذارد.

معماری‌های مورد استفاده در پردازنده‌های مدرن، راهی دراز و پرفرازونشیب در خلال دهه‌های گذشته پیموده است. ابداعات و طراحی‌های هوشمندانه منجر به بهبود عملکرد و به‌کارگیری بهتر اجزای ناپیدای سخت‌افزاری می‌شود. تراشه‌سازان در مورد جزئیات فناوری‌های به‌کاررفته در روند ساخت پردازنده بسیار رمزآلود عمل می‌کنند و دانستن آنچه که دقیقاً درون یک پردازنده و در خلال اجرای دستورالعمل‌ها اتفاق می‌افتد، ناممکن است. با وجود این اصول کار پردازنده‌های کامپیوتر و استانداردهایی که در روند اجرای محاسبات در پردازنده‌ها رعایت می‌شود، نسبتا مشخص است. ممکن است اینتل دست به اقدامی مخفیانه برای بهبود عملکرد حافظه‌ی کش خود بزند یا AMD از یک واحد پیش‌بینی‌گر انشعاب پیشرفته با کارایی بهتر استفاده کند، اما در مجموع هر دو دست به اقدامات مشابهی می‌زنند.

آشنایی با عناصر سازنده و اجزای یک پردازنده

‌اکنون که با روش کار پردازنده‌ها آشنا شدیم، وقت آن است که وارد لایه‌های عمیق‌تر پردازنده شویم و با اجزا و بخش‌های داخلی آن آشنایی بیشتری پیدا کنیم. همان‌طور که احتمالا می‌دانید، پردازنده‌ها و دیگر مدارات دیجیتالی مجتمع از اجزایی با نام ترانزیستور ساخته شده‌اند. ساده ترین راه برای داشتن درکی از یک ترانزیستور تصور سوئیچی با سه پایه یا پین است. گیت منطقی وسیله‌ای الکترونیکی مرکب از یک یا چند ترانزیستور است که عملیات منطقی را روی داده‌های باینری (مرکب از ۰ و ۱) انجام می‌دهد. زمانی‌که گیت باز باشد، امکان عبور جریان الکتریسیته از درون ترانزیستور وجود دارد و با بسته‌شدن گیت، جریانی عبور نخواهد کرد. ترانزیستور درست به‌مانند کلید برق روی دیوار عمل می‌کند، اما بسیار کوچک تر و بسیار سریع‌تر است و توانایی کنترل جریان را نیز دارد.

در پردازنده‌های مدرن دو نوع ترانزیستور اصلی به کار می‌رود: نوع pMOS و نوع nMOS که به اختصار به آن انواع p و n نیز گفته می‌شود. ترانزیستور nMOS با شارژ شدن گیت یا تنظیم حالت High، امکان عبور جریان را فراهم می‌کند و ترانزیستور pMOS جریان را در صورتی عبور می‌دهد که گیت دشارژ شده یا روی حالت low تنظیم شود. با ترکیب این دو نوع ترانزیستور به طوری که یکی مکمل دیگری باشد، امکان ساخت گیت‌های منطقی CMOS وجود دارد. در این قسمت از مقاله قصد نداریم وارد جزئیات فنی و ظریف نحوه‌ی کار ترانزیستور‌ها شویم.

گیت منطقی یک وسیله‌ی ساده است که ورودی را دریافت کرده، عملیاتی را روی آن اجرا می‌کند و نتیجه را به‌عنوان خروجی به دست می‌دهد. برای مثال یک گیت AND خروجی خود را اگر و تنها اگر همه ورودی‌های گیت روشن باشد، روشن خواهد کرد. یک گیت NOT یا وارونگر (Inverter) خروجی خود را در صورتی روشن می‌کند که ورودی خاموش باشد. با ترکیب این دو گیت، یک گیت NAND یا NOT-AND تشکیل می‌شود که اگر و تنها اگر هیچ یک از ورودی‌ها روشن نباشند، خروجی خود را روشن می‌کند؛ البته گیت‌های دیگری نظیر XOR ،NOR ،OR و XNOR نیز در مدارهای منطقی یافت می‌شود. در ادامه خواهیم دید که چگونه دو نوع گیت اساسی منطقی وارونگر و NAND با استفاده از ترانزیستور‌ها طراحی می‌شود.

 

گیت‌های منطقی NAND و وارونگر ترکیبی از سیگنال‌های ورودی، خروجی، ترانزیستورها و البته اتصال زمین است

در گیت وارونگر، یک ترانزیستور نوع pMOS در بالای گیت قرار می‌گیرد که به خطوط حامل توان متصل است و یک ترانزیستور nMOS در پایین گیت نقش اتصال زمین را بازی می‌کند. ترانزیستور‌های pMOS را روی نقشه مدار با دایره‌ی کوچکی که به گیت خود متصل است، نشان داده شده و ترانزیستورهای nMOS تنها به شکل یک پاره‌خط کوچک عمودی بیان می‌شود. از آن رو که ترانزیستورهای pMOS با خاموش بودن ورودی، جریان را عبور می‌دهند و ترانزیستورهای nMOS در صورت شارژ ورودی اقدام به هدایت جریان می‌کنند، می‌توان دریافت که سیگنال در Out (خروجی) گیت همواره مخالف سیگنال در In (ورودی) است.

در گیت NAND چهار ترانزیستور مختلف وجود دارد و امکان تغذیه با دو ورودی فراهم است. مادامی که دست‌کم یکی از ورودی‌ها خاموش باشد، خروجی گیت روشن است. اتصال ترانزیستور‌ها در قالب شبکه‌های ساده نظیر گیت‌های یادشده، همان فرآیندی است که برای طراحی گیت‌های منطقی بسیار پیچیده و مدارات تعبیه‌شده در یک پردازنده، مورد استفاده‌ی مهندسان تراشه‌ساز قرار می‌گیرد.

با بلوک‌های ساختاری به‌سادگی گیت‌های منطقی، داشتن درکی از نحوه‌ی ترکیب و تبدیل آن‌ها به یک تراشه محاسبه‌گر پیشرفته شاید سخت به نظر برسد. فرایند طراحی چنین تراشه‌هایی در برگیرنده‌ی ترکیب گیت‌های متعدد برای ساخت مداری کوچک است که توانایی انجام یک عمل محاسباتی ساده را دارد. پس از آن تعداد زیادی از این مدار‌های کوچک ترکیب می‌شود تا ساختاری برای انجام یک عمل پیچیده‌تر به دست آید. فرایند ترکیب اجزای جداگانه‌ی ساده‌تر نظیر انواع گیت‌های منطقی و ترکیب آن‌ها برای دستیابی به یک طراحی عملیاتی و در نهایت مدار مجتمعی که قادر به اجرای محاسبات پیچیده با سرعت بسیار بالایی باشد، دقیقا همان شیوه‌ای است که امروزه در ساخت پردازنده‌های مدرن کاربرد دارد. یک تراشه‌ی امروزی ساختاری مرکب از مدارهای منطقی بی‌شمار است که میلیاردها ترانزیستور را در خود جای می‌دهد.

 

در اینجا یک مثال ساده باعث درک بهتری از بحث می‌شود. می‌خواهیم روش کار مدار جمع‌کننده‌ی یک‌بیتی را مرور کنیم. این مدار ۳ مقدار ورودی را دریافت می‌کند که شامل مقدار A، مقدار B و سیگنال Carry-In است و دو خروجی شامل مقدار Sum و سیگنال Carry-Out به دست می‌دهد. در طراحی مبنا از ۵ گیت منطقی استفاده می‌شود. این گیت‌ها با یکدیگر لینک می‌شوند تا جمع‌کننده‌ای با هر اندازه‌ی دلخواه بسازند. در طراحی‌های مدرن پردازنده، اگرچه این فرایند با بهینه‌سازی برخی از مدارهای منطقی و سیگنال‌های حامل داده، پیشرفت‌های زیادی به خود دیده؛ اما اصول کار همچنان یکسان است.

 

طرحی از یک مدار منطقی جمع‌کننده‌ی یک بیتی

خروجی Sum در صورتی روشن می‌شود که یکی از مقادیر A یا B و نه هر دو روشن باشد یا سیگنال Carry-In وجود داشته و مقادیر A و B هر دو روشن یا هر دو خاموش باشد. سیگنال Carry-Out کمی پیچیده‌تر است. این سیگنال وقتی فعال می‌شود که A و B هر دو در یک زمان روشن شود یا سیگنال Carry-In موجود باشد و یکی از دو مقدار A یا B روشن باشد. برای اتصال چند جمع‌کننده‌ی یک بیتی برای ساخت یک جمع‌کننده با پهنای بیشتر، فقط باید سیگنال Carry-Out بیت قبلی را به سیگنال Carry-In بیت جاری متصل کرد. هرچه مدارها پیچیده‌تر باشد، ازدحام گیت‌های کوچک منطقی بیشتر می‌شود؛ اما آنچه گفته شد، ساده‌ترین راه برای جمع‌بستن دو عدد است. در پردازنده‌های مدرن از مدارهای جمع‌کننده‌ی پیچیده‌تری استفاده می‌شود و بررسی چنین مدارهایی از حوصله‌ی این مقاله خارج است. پردازنده‌ها علاوه بر مدارهای جمع‌کننده، دربرگیرنده‌ی واحدهایی برای انجام عمل تقسیم، ضرب و نسخه‌های اعشاری تمامی این اعمال حسابی است.

ترکیب رشته‌ای از گیت‌ها مشابه آنچه گفته شد، برای انجام پاره‌ای از عملیات‌ها روی مقادیر ورودی با نام منطق ترکیبی شناخته می‌شود. با این حال، این نوع منطق تنها شیوه‌ی شناخته‌شده در دنیای کامپیوترها نیست. اگر نتوان داده‌ها را ذخیره کرده یا وضعیت هر پارامتری را ردیابی کرد، استفاده از این شیوه چندان راه‌گشا نخواهد بود. برای اینکه امکان ذخیره‌سازی داده‌ها وجود داشته باشد، از منطق ترتیبی استفاده می‌شود. منطق ترتیبی با اتصال دقیق وارونگر‌ها و سایر گیت‌های منطقی به نحوی انجام می‌پذیرد که خروجی‌های هر گیت بازخوردی به ورودی آن‌ها ارائه دهد. از این حلقه‌های بازخورد برای ذخیره کردن یک بیت داده استفاده می‌شود و با نام رم استاتیک یا SRAM شناخته می‌شوند. عبارت رم استاتیک در مقابل رم دینامیک در حافظه‌های DRAM قرار می‌گیرد؛ چرا که در نوع استاتیک، داده‌های در حال ذخیره همواره به‌طور مستقیم به ولتاژ مثبت یا زمین متصل هستند.

روش استاندارد برای پیاده‌سازی یک بیت واحد SRAM استفاده از ۶ ترانزیستوری است که در شکل زیر ترسیم شده است. سیگنال بالایی WL که مخفف عبارت Word Line است، آدرس بوده و زمانی‌که اعمال شود، داده‌ی ذخیره‌شده در این سلول یک بیتی به Bit Line که با حرف BL مشخص شده، ارسال می‌شود. خروجی BLB یا Bit Line Bar درست مقدار وارون‌شده‌ی Bit Line است. دو نوع ترانزیستور را در این مدار می‌توان شناسایی کرد و دریافت که ترانزیستورهای M3 و M1 و در سوی دیگر M4 و M2 تشکیل یک گیت وارونگر را داده‌اند.

 

طرحی از یک مدار منطقی SRAM برای ذخیره‌سازی یک بیت داده

SRAM همان عنصری است که از آن برای ساخت حافظه‌های کشِ فوق سریع و ثبات‌های درون پردازنده استفاده می‌شود. این عنصر اگرچه بسیار پایدار است، اما برای نگه‌داری یک بیت داده نیاز به ۶ تا ۸ ترانزیستور دارد؛ بنابراین ساخت چنین مداری از دیدگاه هزینه، پیچیدگی و فضای موجود در تراشه در مقایسه با DRAM بسیار گران تمام می‌شود. حافظه‌های رم دینامیک، در نقطه‌ی مقابل، به‌جای استفاده از گیت‌های منطقی و ترانزیستورها برای ذخیره‌ی داده، از خازن‌های بسیار ریز استفاده می‌کنند؛ این حافظه‌ها را دینامیک می‌نامیم چرا که خازن مستقیم به جریان برق یا زمین متصل نیست و امکان تغییر ولتاژ آن به‌صورت دینامیک وجود دارد. در این حافظه‌ها تنها یک ترانزیستور واحد وجود دارد که از آن برای دسترسی به داده‌ی ذخیره‌شده در خازن استفاده می‌شود.

 

مدار حافظه‌ی DRAM شامل یک ترانزیستور و یک خازن برای ذخیره‌سازی یک بیت داده

‌از آنجایی که حافظه‌ی DRAM به ازای هر بیت داده تنها به یک ترانزیستور واحد نیاز دارد و طراحی آن بسیار مقیاس‌پذیر است، امکان ساخت حافظه‌های بسیار چگال و ارزان‌قیمت از این نوع وجود دارد. یکی از اشکالات رم دینامیک این است که ظرفیت شارژ خازن آنقدر کم است که به‌طور دائم باید از نو شارژ شود. به همین دلیل است که وقتی کامپیوتر خود را خاموش می‌کنید، تمامی خازن‌ها تخلیه می‌شود و هر آنچه در این حافظه بارگذاری شده، از دست می‌رود. ترکیبی از مدارهای کوچک شکل فوق در سطر و ستون‌های پرشمار ساختار حافظه‌ی DRAM سیستم را شکل می‌دهد.

شرکت‌هایی مثل اینتل، AMD و انویدیا طرحی دقیق از نحوه‌ی کار پردازنده‌های خود ارائه نمی‌کنند، بنابراین نمایش دیاگرامی کامل از مدار‌های منطقی یک پردازنده‌ی مدرن ناممکن است؛ با وجود این، مثالی که از یک مدار جمع‌کننده‌ی ساده زده شد، می‌تواند تصور مناسبی از نحوه‌ی کار یک پردازنده و چگونگی تجزیه‌ی آن به گیت‌های منطقی، عناصر ذخیره‌سازی و در نهایت ترانزیستورها ایجاد کند.

اکنون که با روش کار و طرز ساخت بعضی از اجزای اساسی پردازنده‌ها آشنا شدیم، باید دریابیم که چگونه همه‌ی اجزا به یکدیگر متصل و با یکدیگر همگام می‌شوند. همه اجزای کلیدی یک پردازنده به عاملی با نام سیگنال کلاک متصل می‌شوند. این سیگنال در بازه‌های از پیش تعریف‌شده با نام فرکانس، بین دو حد بالا و پایین نوسان می‌کند. سیگنال کلاک توسط قطعه‌ای با نام مولد سیگنال (Signal Generator) که یک نوسان‌ساز الکترونیکی است، تولید می‌شود. نوسان‌ساز متشکل از برد مدارات پیزوالکتریک از جنس کوارتز یا سرامیک است. این مولد، سیگنالی با زمانبندی دقیق برای همگام‌سازی عملکرد مدارهای منطقی مختلف درون تراشه تولید می‌کند. مولد سیگنال سینوسی را در ورودی دریافت کرده و طی مراحلی آن را تبدیل به یک موج مربعی ساده‌ی متقارن یا موج پیچیده‌تری می‌کند و تحویل تراشه می‌دهد.

اجزای منطقی پردازنده همگام با اوج و فرود سیگنال دریافتی، مقادیر را تبدیل و جایگزین (سوییچ) کرده و محاسبات را اجرا می‌کنند. با همگام‌کردن تمامی اجزا با یکدیگر می‌توان اطمینان یافت که داده‌ها همواره با زمان‌بندی مناسبی تحویل و دریافت می‌شود، به‌طوری‌که هیچ خللی در کار پردازنده پدید نمی‌آید.

خوانندگان این مقاله ممکن است با مفهوم اورکلاکینگ آشنا باشند که در آن کلاک پردازنده به‌طور دستی یا از طریق متدهای نرم‌افزاری افزایش می‌یابد تا سطح عملکرد تراشه بهبود یابد. این بهبود سطح عملکرد ناشی از تسریع فرایند سوئیچ ترانزیستور‌ها و مدار‌های منطقی با سرعتی بیشتر از آن چیزی است که در طراحی پیش‌بینی شده است. از آنجایی که در هر ثانیه سیکل‌های کلاک بیشتری پیموده می‌شود، کار بیشتری قابل انجام است و پردازنده کارایی بالاتری دارد؛ هرچند این افزایش سطح عملکرد نقطه‌ی بیشینه‌ای دارد. فرکانس یا سرعت کلاک پردازنده‌های مدرن عددی بین ۳ تا ۴/۵ گیگاهرتز است و در طول یک دهه گذشته این رقم تغییر چندانی به خود ندیده است. درست همچون یک زنجیر فلزی که استحکام آن برابر با استحکام ضعیف‌ترین حلقه است، حداکثر سرعت کلاک عملیاتی یک پردازنده را کندترین بخش آن مشخص می‌کند. هر جزء واحد پردازنده با پایان یافتن یک سیکل کلاک بایستی عملیات مقرر را به اتمام رسانده باشد. اگر در این بازه‌ی زمانی بخشی از پردازنده قادر به تکمیل عملیات در حال اجرا نباشد، فرکانس کلاک برای آن پردازنده بیشتر از ظرفیت آن بوده و تراشه در این شرایط از کار بازخواهد ایستاد. طراحان این کندترین بخش تراشه را مسیر بحرانی (Critical Path) می‌نامند و این بخش تعیین‌کننده‌ی حداکثر فرکانس یک پردازنده است. تجاوز از یک فرکانس معین سبب می‌شود، ترانزیستور‌ها با سرعت کافی سوئیچ نشوند و اختلال در روند کار یا تولید خروجی‌های نادرست آغاز شود.

 

فرایند سوئیچ ترانزیستورها را می‌توان با افزایش ولتاژ تغذیه پردازنده تا حد معینی افزایش داد و افزایش بیش از حد ولتاژ خود ممکن است عامل ایجاد اختلال باشد. از سویی، افزایش بیش از حد ولتاژ خطر سوختن پردازنده را در پی دارد. با افزایش هر یک از دو عامل فرکانس یا ولتاژِ یک پردازنده گرمای بیشتری تولید می‌شود و توان مصرفی افزایش می‌یابد. علت این است که