جذب و استخدام

سوالات مصاحبه یادگیری ماشین کدامند و چه پاسخی باید دریافت کنید؟

برای انجام یک مصاحبه یادگیری ماشینی، یک روش مصاحبه سختگیرانه مورد نیاز است، که در آن داوطلبان براساس معیارهای متعددی مانند مهارت‌های فنی و برنامه‌نویسی، درک روش و وضوح مفاهیم اولیه مورد قضاوت قرار می‌گیرند. اگر می‌خواهید برای موقعیت شغلی یادگیری ماشینی درخواست کار ارسال کنید، بهتر است از انواع سوالات مصاحبه یادگیری ماشین که مدیران منابع انسانی می‌پرسند اطلاع کسب کنید.

ما فهرستی از متداول‌ترین سوالات مصاحبه یادگیری ماشینی را که ممکن است در طول مصاحبه با آن‌ها مواجه شوید، گردآوری کرده‌ایم.

تفاوت بین هوش مصنوعی (AI)، یادگیری ماشین (ML) و یادگیری عمیق (DL) چیست؟

حوزه هوش مصنوعی (AI) با ایجاد ماشین‌های هوشمند سروکار دارد. سیستم‌هایی که می‌توانند از تجربه یاد بگیرند (داده‌های آموزشی) به عنوان یادگیری ماشین (ML) شناخته می‌شوند، در حالی که سیستم‌هایی که از تجربه در مجموعه داده‌های بزرگ یاد می‌گیرند به عنوان یادگیری عمیق (DL) نامیده می‌شوند. هوش مصنوعی را می‌توان زیرمجموعه ای از یادگیری ماشینی در نظر گرفت. یادگیری عمیق (DL) شبیه به یادگیری ماشین (ML) است، اما برای مجموعه داده‌های بزرگ مناسب‌‌تر است.

مهم ترین تمایز بین یادگیری ماشینی تحت نظارت و بدون نظارت چیست؟

تکنیک یادگیری نظارت شده برای آموزش مدل، به داده‌های برچسب‌دار نیاز دارد. به عنوان مثال، برای حل یک مشکل طبقه‌بندی (یک کار یادگیری تحت نظارت)، به داده‌های برچسب‌دار برای آموزش مدل و همچنین گروه‌های برچسب‌گذاری شده برای طبقه‌بندی داده‌ها نیاز دارید. در یادگیری بدون نظارت نیازی به مجموعه داده برچسب‌دار نیست. این مهم ترین تمایز بین یادگیری تحت نظارت و بدون نظارت است.

هنگام کار با یک مجموعه داده، چگونه متغیرهای مهم را انتخاب می‌کنید؟

روش‌های مختلفی برای انتخاب متغیرهای کلیدی از مجموعه داده وجود دارد، از جمله:

  • قبل از تصمیم‌گیری درمورد ‌عوامل حیاتی، متغیرهای مرتبط را شناسایی و حذف کنید.
  • متغیرها ممکن است با استفاده از مقادیر ‘p’ از روش‌های انتخاب رگرسیون خطی رو به جلو، عقب و گام به گام انتخاب شوند.
  • رگرسیون با Lasso
  • نمودار متغیر تصادفی برای forest و نمودار
  • ویژگی‌های برتر را می‌توان بسته به میزان اطلاعات به دست آمده درمورد ‌مجموعه ویژگی‌های ارائه شده، انتخاب کرد.

تمایز بین رابطه علت و معلولی و همبستگی را توضیح دهید

رابطه علت و معلولی یا همان قانون علیت به شرایطی اشاره دارد که در آن یک عمل، مانند X، به نتیجه ای مانند Y منجر می‌شود، در حالی که همبستگی صرفاً به رابطه بین یک عمل (X) و یک عمل دیگر (Y) اشاره دارد، اگرچه X همیشه به Y منجر نمی‌شود.

تقریباً همه روزه به نرم‌افزار یادگیری ماشین نگاهی می‌اندازیم. بهترین راه برای اعمال یادگیری ماشین در سخت‌افزار چیست؟

برای اعمال یادگیری ماشینی در سخت افزار، ابتدا باید الگوریتم‌های ML را در System Verilog، که یک زبان توسعه سخت‌افزار است ایجاد کنیم و سپس آنها را در یک FPGA برنامه‌ریزی ‌کنیم.

در یادگیری ماشینی، چه زمانی منظم‌سازی وارد عمل می‌شود؟

منظم‌سازی زمانی اهمیت پیدا می‌کند که مدل شروع به عدم تناسب یا تناسب بیش از حد می‌کند. این یک نوع رگرسیون است که تخمین ضریب را به سمت صفر منحرف یا منظم می‌کند. برای به حداقل رساندن تناسب بیش از حد، انعطاف پذیری را کاهش می‌دهد و یادگیری در یک مدل را منع می‌کند. پیچیدگی مدل کاهش می‌یابد و توانایی پیش بینی آن را بهبود می‌بخشد.

چه رابطه‌ای بین انحراف معیار و واریانس وجود دارد؟

انحراف از معیار میزان انحراف داده‌های شما از میانگین را اندازه‌گیری می‌کند. اما میانگین درجه تفاوت هر نقطه با میانگین یا میانگین تمام نقاط داده، واریانس نامیده می‌شود. چون انحراف از معیار جذر واریانس است، می‌توانیم این دو را به هم وصل کنیم.

آیا تنوع زیاد در داده‌ها چیز خوبی است یا منفی؟

واریانس بالاتر نشان می‌دهد که گستره تنوع داده‌ها بسیار زیاد است و این ویژگی دارای طیف گسترده‌ای از داده‌ها است. نوسانات زیاد در یک ویژگی معمولاً به عنوان نشانه‌ای از کیفیت پایین در نظر گرفته می‌شوند.

اگر مجموعه داده دارای واریانس بالایی باشد چه کاری انجام می‌دهید؟

می‌توانیم از تکنیک دسته‌بندی برای مدیریت مجموعه‌های داده که تنوع زیادی دارند، استفاده کنیم. با نمونه‌گیری تکرار شده از داده‌های تصادفی، الگوریتم دسته‌بندی، داده‌ها را به زیر گروه‌ها تقسیم می‌کند. داده‌های تصادفی برای توسعه قوانین با استفاده از یک الگوریتم آموزشی پس از جداسازی داده‌ها استفاده می‌شود. سپس از روش نظرسنجی برای ترکیب تمامی نتایج پیش بینی شده مدل استفاده می‌شود.

چگونه مقادیر از دست رفته یا خراب در مجموعه داده باید مدیریت شوند؟

حذف سطرها یا ستون‌های مربوطه یک تکنیک ساده برای مقابله با مقادیر از دست رفته یا خراب است. اگر تعداد سطرها یا ستون‌های زیادی برای حذف وجود دارد، ورودی‌های گمشده یا خراب را با مقادیر جدید جایگزین می‌کنیم.

توابع IsNull() و dropna() در Pandas می‌توانند برای یافتن مقادیر گمشده و رها کردن سطرها یا ستون‌ها استفاده شوند. علاوه بر این، تابع Fillna() Pandas مقادیر اشتباه را با مقادیر placeholder جایگزین کنند.

سری زمانی دقیقا چیست؟

سری زمانی مجموعه‌ای از نقاط داده عددی است که به ترتیب منطقی مرتب شده‌اند. نقاط داده‌ها را در فواصل منظم ثبت می‌کند و حرکت نقاط داده‌های انتخابی را در یک دوره زمانی مشخص دنبال می‌کند. هیچ الزامی برای حداقل یا حداکثر ورودی زمانی در یک سری زمانی وجود ندارد. سری‌های زمانی اغلب توسط تحلیلگران برای تجزیه و تحلیل داده‌ها به منظور برآوردن نیازهای فردی آنها استفاده می‌شود.

تبدیل Box-Cox چیست و چگونه کار می‌کند؟

از آنجایی که نرمال بودن رایج‌ترین فرضی است که هنگام استفاده از تکنیک‌های آماری مختلف ایجاد می‌شود، تبدیل Box-Cox متغیرهای وابسته غیرنرمال را به متغیرهای نرمال تبدیل می‌کند. وقتی روی 0 تنظیم شود، آرگومان لامبدا نشان می‌دهد که این تبدیل با تبدیل log قابل مقایسه است. برای نرمال کردن توزیع و تثبیت واریانس استفاده می‌شود.

تفاوت بین شیب نزولی (GD) و شیب نزولی تصادفی (SGD) چیست؟

الگوریتم‌های Gradient Descent و Stochastic Gradient Descent مجموعه پارامترهایی که ضرر تابع را به حداقل می‌رساند، تعیین می‌کنند.

Gradient Descend از این جهت متفاوت است که تمام نمونه‌های آموزشی برای هر مجموعه از پارامترها ارزیابی می‌شوند. برای مجموعه پارامترهای شناسایی شده در نزول گرادیان تصادفی، فقط یک نمونه آموزشی مورد بررسی قرار می‌گیرد.

مشکل گرادیان انفجاری تکنیک پس انتشار چیست؟

مشکل گرادیان انفجاری زمانی رخ می‌دهد که گرادیان‌های خطای قابل توجهی ایجاد می‌شوند و منجر به تغییرات عظیمی در وزن شبکه‌های عصبی در طول تمرین می‌شوند. مقادیر وزن می‌توانند آنقدر بزرگ شوند که سرریز شوند و در نتیجه مقادیر NaN ایجاد شود. همانند مشکل گرادیان ناپدید شدن، این امر باعث ناپایداری مدل می‌شود و باعث توقف فرآیند یادگیری می‌شود.

آیا می‌توانید برخی از مزایا و معایب درخت‌های تصمیم‌گیری را فهرست کنید؟

درخت‌های تصمیم از مزایای خواندن آسان‌تر، ناپارامتریک بودن و در نتیجه انعطاف‌پذیری نسبت به نقاط پرت و داشتن تعداد کمی پارامتر برای تغییر دادن برخوردارند.

از طرف دیگر، آنها مشکل مستعد بودن بیش از حد را دارند.

تبدیل Fourier چیست و چگونه کار می‌کند؟

تبدیل Fourier یک رویکرد ریاضی برای تبدیل هر تابع زمانی به تابع فرکانس است. تبدیل Fourier و سری Fourier مفاهیمی نزدیک به هم هستند. با استفاده از هر الگوی مبتنی بر زمان به عنوان ورودی، افست چرخه کلی، سرعت چرخش و قدرت را برای همه چرخه‌های ممکن، تعیین می‌کند. از آنجایی که دارای توابع زمان و مکان است، تبدیل Fourier به بهترین وجه برای شکل موج اعمال می‌شود. هنگامی که یک شکل موج تحت تبدیل Fourier قرار می‌گیرد، به یک شکل موج سینوسی تبدیل می‌شود.

منظور از حاشیه‌نشینی چیست؟ روال را شرح دهید.

جمع کردن احتمال یک متغیر تصادفی X با توجه به توزیع احتمال ترکیبی آن با سایر متغیرها به عنوان حاشیه‌سازی شناخته می‌شود. موردی است که از قانون احتمال کل استفاده می‌شود.

P(X=x) = ∑YP(X=x,Y)

ممکن است از حاشیه برای تعیین P(X=x, Y) با توجه به احتمال مشترک P(X=x, Y) استفاده کنیم. بنابراین، با اضافه کردن موارد روی سایر متغیرهای تصادفی، می‌توان توزیع یک متغیر تصادفی را شناسایی کرد.

وقتی رگرسیون روی زیرمجموعه‌های مختلف یک مجموعه داده انجام می‌شود، اگر مقدار بتا برای یک متغیر معین در هر زیرمجموعه بیش از حد نوسان کند، ممکن است چه مشکلی ایجاد شود؟

این واقعیت که مقادیر بتا در هر زیرگروه متفاوت است نشان می‌دهد که مجموعه داده متنوع است. برای حل این مشکل، می‌توانیم از یک مدل متفاوت برای هر یک از زیر مجموعه‌های خوشه‌بندی شده مجموعه داده استفاده کنیم، یا می‌توانیم از یک مدل ناپارامتریک مانند درخت‌های تصمیم استفاده کنیم.

معنی اصطلاح عامل تورم واریانس چیست؟

ضریب تورم تغییر (VIF) نسبت واریانس مدل به واریانس مدل زمانی است که فقط یک متغیر مستقل وجود دارد. حجم چند خطی در مجموعه ای از متغیرهای رگرسیون چندگانه با استفاده از VIF برآورد می‌شود.

VIF = واریانس مدل با یک متغیر مستقل

نام الگوریتم یادگیری ماشین معروف به یادگیرنده تنبل چیست و چرا اینطور است؟

یک یادگیرنده کند، KNN یک الگوریتم یادگیری ماشینی است. K-NN یک یادگیرنده تنبل است زیرا هیچ مقدار یا متغیری را که توسط ماشین آموخته شده باشد را از داده‌های آموزشی یاد نمی‌گیرد، به جای محاسبه فاصله به صورت پویا هر بار که می‌خواهد مجموعه داده آموزشی را طبقه بندی و در نتیجه به خاطر می‌سپارد.

آیا امکان پردازش تصاویر با KNN وجود دارد؟

بله می‌توان از KNN می‌توان برای پردازش تصاویر استفاده کرد. این کار با تبدیل تصویر سه بعدی به یک بردار تک بعدی و تغذیه آن به KNN امکان پذیر است.

رویکرد الگوریتم SVM برای خودآموزی چیست؟

این توسط نرخ یادگیری و گسترش SVM مراقبت می‌شود. نرخ یادگیری، هایپرپلن‌ها را برای تمام حرکات نادرستشان جبران یا جریمه می‌کند، در حالی که نرخ انبساط مربوط به تعیین حداکثر منطقه جدایی بین طبقات است.

در SVM، کرنل‌ها چیست؟ رایج ترین هسته‌های مورد استفاده در SVM را به همراه سناریوی نحوه به کارگیری آنها فهرست کنید

وظیفه کرنل گرفتن داده و تبدیل آن به فرمت مورد نیاز است. RBF، Linear، Sigmoid، Polynomial، Hyperbolic، Laplace، و دیگر هسته‌های برجسته SVM عبارتند از:

در الگوریتم SVM، ترفند هسته چیست؟

Kernel Trick یک فرمول ریاضی است که می‌تواند برای کشف ناحیه طبقه بندی بین دو کلاس در هنگام اعمال بر روی نقاط داده استفاده شود. یک طبقه‌بندی کننده می‌تواند براساس تابع انتخاب شده‌ی خطی یا شعاعی که صرفاً به توزیع داده‌ها وابسته است، ساخته شود.

مدل‌های مجموعه چیست و چگونه کار می‌کنند؟ توضیح دهید که چرا تکنیک‌های گروهی نسبت به الگوریتم‌های یادگیری ماشینی طبقه‌بندی معمولی یادگیری بهتری ایجاد می‌کنند؟

گروه مجموعه ای از مدل‌ها است که با هم برای طبقه بندی و پیش بینی رگرسیون استفاده می‌شود. از آنجا که چندین مدل را با هم ترکیب می‌کند، یادگیری گروهی نتایج ML را بهبود می‌بخشد. در مقایسه با یک مدل واحد، این عملکرد پیش بینی بهبود یافته را فراهم می‌کند.

آنها با کاهش واریانس، میانگین گیری از تعصبات، و کاهش خطر بیش از حد برازش، از مدل‌های فردی بهتر عمل می‌کنند.

خطای OOB چیست و چگونه اتفاق می‌افتد؟

یک سوم داده‌ها در هر نمونه بوت استرپ یا خود راه انداز، در ساختار درختی استفاده نشد، یعنی در نمونه گنجانده نشد. اطلاعات خارج از دسته نامی است که به این نوع اطلاعات داده شده است. خطای خارج از دسته برای به دست آوردن یک ارزیابی بی طرفانه از دقت مدل درمورد ‌داده‌های آزمایشی استفاده می‌شود. داده‌های خارج از دسته از طریق هر درخت منتقل می‌شود و خروجی‌ها برای تعیین خطای خارج از دسته میانگین می‌شوند. این درصد خطا در تخمین خطا در مجموعه تست بسیار موثر است و نیازی به اعتبارسنجی متقاطع بیشتری ندارد.

در مقایسه با سایر روش‌های مجموعه، چرا تقویت الگوریتم پایدارتری است؟

Boosting روی تکرار خطاهای قبلی متمرکز می‌شود تا زمانی که دیگر اتفاق نیفتند. در مقابل، هیچ حلقه اصلاحی در دسته سازی وجود ندارد. به همین دلیل است که در مقایسه با سایر الگوریتم‌های مجموعه، تقویت رویکرد پایدارتری است.

چگونه با داده‌های پرت برخورد می‌کنید؟

داده پرت، داده ای است که به طور قابل ملاحظه ای با بقیه مجموعه داده‌ها متفاوت است. موارد دورافتاده را می‌توان با استفاده از ابزارها و توابع بهینه سازی مانند نمودار جعبه، نمودار پراکندگی، امتیاز Z و امتیاز IQR یافت و سپس براساس تجسمی که داریم آنها را به کار ببریم. برای مقابله با موارد پرت، می‌توان محدودیت تعیین کرد، تغییراتی را برای کاهش چولگی در داده‌ها به کار برد، و ناهنجاری‌ها یا خطاها را در صورت پرت بودن حذف کرد.

فهرستی از پرکاربردترین روش‌های اعتبارسنجی متقابل تهیه کنید.

رویه‌های اعتبارسنجی متقابل به شش دسته تقسیم می‌شوند. در زیر به برخی از آنها اشاره می‌شود:

  1. K fold
  2. طبقه بندی K fold
  3. یکی را کنار بگذار
  4. بوت استرپینگ یا خود راه اندازی
  5. جستجوی تصادفی cv
  6. سی وی جستجوی شبکه

آیا راهی برای آزمایش احتمال بهبود صحت مدل بدون استفاده از تکنیک‌های اعتبارسنجی متقابل وجود دارد؟ اگر چنین است، توضیح دهید.

بدون استفاده از رویکردهای اعتبارسنجی متقابل، امکان آزمایش احتمال بهبود صحت مدل وجود دارد. ما می‌توانیم با تکرار مدل ML برای n تکرار و ثبت دقت به این امر دست یابیم. تمام دقت‌ها را رسم کنید و 5 درصد مقادیر را با احتمال کم کنار بگذارید. برش‌های چپ [کم] و راست [بالا] را اندازه گیری کنید. می‌توان گفت که مدل می‌تواند با 95% اطمینان باقی‌مانده، به همان اندازه پایین یا بالا برود [همانطور که در نقاط برش نشان داده شده است.

اهمیت چرخش اجزا در تجزیه و تحلیل اجزای اصلی (PCA) چیست؟

چرخش در PCA حیاتی است زیرا جداسازی درون واریانس بدست‌آمده توسط همه اجزا را بهینه می‌کند و تفسیر جزء را آسان‌تر می‌کند. اگر مولفه‌ها چرخانده نشوند، برای نمایش واریانس مؤلفه‌ها به مؤلفه‌های توسعه‌یافته نیاز داریم.

چرا رگرسیون لجستیک یک روش طبقه‌بندی است تا یک رگرسیون؟ نام تابعی که از آن مشتق شده چیست؟

با توجه به ماهیت طبقه بندی ستون هدف، از رگرسیون خطی برای تولید یک تابع فرد استفاده می‌شود که در یک تابع log پیچیده شده است تا از رگرسیون به عنوان طبقه بندی کننده استفاده شود. در نتیجه، این یک رویکرد طبقه بندی است تا یک رگرسیون. از تابع هزینه می‌آید.

وقتی رگرسیون روی زیرمجموعه‌های مختلف یک مجموعه داده انجام می‌شود، اگر مقدار بتا برای یک متغیر معین در هر زیرمجموعه بیش از حد نوسان کند، چه مشکلی می‌تواند ایجاد کند؟

این واقعیت که مقادیر بتا در هر زیرگروه متفاوت است نشان می‌دهد که مجموعه داده متنوع است. برای حل این مشکل، می‌توانیم از یک مدل متفاوت برای هر یک از زیر مجموعه‌های خوشه‌بندی شده مجموعه داده استفاده کنیم، یا می‌توانیم از یک مدل ناپارامتریک مانند درخت‌های تصمیم استفاده کنیم.

مثالی از یک الگوریتم کاهش ابعاد شناخته شده را بیاورید.

تجزیه و تحلیل مؤلفه اصلی و تحلیل عاملی دو روش محبوب کاهش ابعاد هستند.

از مجموعه گسترده‌تری از متغیرهای قابل اندازه‌گیری، تجزیه و تحلیل مؤلفه اصلی یک یا چند متغیر شاخص ایجاد می‌کند. مدلی برای اندازه گیری متغیر پنهان، تحلیل عاملی است. این متغیر پنهان با رابطه ای که در گروهی از متغیرهای y ایجاد می‌کند دیده می‌شود و نمی‌توان آن را با یک متغیر ارزیابی کرد.

چگونه می‌توانیم الگوریتم‌های یادگیری نظارت شده را به مجموعه داده‌ای که فاقد متغیر هدف هستند، وابسته کنیم؟

داده‌ها را در یک الگوریتم خوشه بندی قرار دهید، بهترین گروه بندی‌ها را پیدا کنید و اعداد خوشه را به عنوان متغیر هدف جدید برچسب گذاری کنید. اکنون مجموعه داده شامل متغیرهای مستقل و هدف است. این تضمین می‌کند که مجموعه داده برای تکنیک‌های یادگیری نظارت شده آماده است.

چگونه به مسائل مربوط به پراکندگی در سیستم‌های توصیه رسیدگی کنیم؟ چگونه بفهمیم که کار می‌کند؟

ماتریس پیش بینی را می‌توان با استفاده از تجزیه مقدار منفرد ایجاد کرد. ریشه به معنای مربع خطا (RMSE) متریکی است که نشان می‌دهد ماتریس پیش بینی چقدر به ماتریس اصلی نزدیک است.

رویکردهای مورد استفاده در سیستم توصیه برای یافتن نقاط مشترک را نام برده و مشخص کنید.

از تکنیک‌های همبستگی پیرسون و همبستگی کسینوس در سیستم‌های توصیه برای کشف شباهت‌ها استفاده می‌شود.

اصطلاح یادگیری مبتنی بر نمونه به چه معناست؟

یادگیری مبتنی بر نمونه مجموعه‌ای از الگوریتم‌های رگرسیون و طبقه‌بندی شده است که یک پیش‌بینی با برچسب کلاس را براساس شباهت‌ها به نزدیک‌ترین همسایگان مجموعه داده‌های آموزشی انجام می‌دهد. این الگوریتم‌ها به سادگی تمام داده‌ها را جمع آوری می‌کنند و در صورت درخواست، پاسخ را ارائه می‌دهند. به بیان ساده، آنها مجموعه ای از فرآیندها برای حل مسائل جدید هستند که براساس پاسخ‌های قبلی به برخی مشکلات که با چالش فعلی قابل مقایسه هستند ساخته شده‌اند.

تفاوت Lasso و Ridge چیست؟

تکنیک‌های منظم‌سازی مانند Lasso(L1) و Ridge(L2) ضرایب را برای یافتن بهترین راه حل جریمه می‌کنند. مجموع مجذورات ضرایب تابع تنبیه را در خط الراس تعریف می‌کند، در حالی که مجموع مقادیر مطلق ضرایب در lasso جریمه می‌شود. ElasticNet یک تابع جریمه ترکیبی از lasso و Ridge است که به عنوان یک ابزار منظم سازی استفاده می‌شود.

چگونه می‌توانید تفاوت بین مدل‌سازی آماری و یادگیری ماشین را تشخیص دهید؟

مدل‌های یادگیری ماشینی برای پیش‌بینی دقیق درمورد ‌سناریوهایی مانند ترافیک پای رستوران، قیمت سهام و غیره استفاده می‌شوند، در حالی که مدل‌های آماری برای استنباط بین متغیرهایی مانند آنچه باعث فروش رستوران می‌شود استفاده می‌شود: آشپزی یا محیط.

اصطلاحات Gamma و Regularization در SVM به چه معناست؟

تأثیر با گاما تعریف می‌شود. اعداد کم نشان دهنده فاصله هستند، در حالی که مقادیر زیاد نشان دهنده نزدیکی هستند. اگر گاما خیلی بزرگ باشد، شعاع حوزه اثر بردارهای پشتیبان فقط خود بردار پشتیبان را در بر می‌گیرد و هیچ مقدار منظم سازی با استفاده از C نمی‌تواند از برازش بیش از حد جلوگیری کند. اگر گاما خیلی کوچک باشد، مدل برای توصیف پیچیدگی داده بسیار محدود است.

پارامتر منظم سازی (لامبدا) برای تعیین اهمیت عدم طبقه بندی‌ها استفاده می‌شود. این می‌تواند برای نشان دادن مبادله OverFitting استفاده شود.

منحنی ROC را تعریف کنید؟

منحنی ROC یک نمایش گرافیکی از تفاوت بین نرخ‌های مثبت واقعی و مثبت کاذب در آستانه‌های مختلف است. این به عنوان یک پروکسی برای معاوضه مثبت واقعی در مقابل مثبت کاذب استفاده می‌شود.

تفاوت بین مدل افتراقی و مولد چیست؟

مدل تولیدی مدلی است که انواع مختلفی از داده‌ها را یاد می‌گیرد. از سوی دیگر، یک مدل متمایز به سادگی تفاوت‌های بین انواع مختلف داده‌ها را می‌آموزد. وقتی صحبت از مشکلات طبقه بندی می‌شود، مدل‌های متمایز به طور قابل توجهی از مدل‌های تولیدی بهتر عمل می‌کنند.

تفاوت بین هایپرپارامترها و پارامترها چیست؟

پارامتر یک متغیر، مدل داخلی است که مقدار آن براساس داده‌های آموزشی تخمین زده می‌شود. آنها اغلب به عنوان بخشی از مدلی که آموزش داده شده ذخیره می‌شوند. وزن ها، سوگیری‌ها و سایر متغیرها نمونه‌هایی از پارامترها هستند.

هایپرپارامتر متغیری است که بخشی از مدل نیست و مقدار آن را نمی‌توان از روی داده‌ها حدس زد. پارامترهای مدل اغلب با استفاده از آنها تخمین زده می‌شوند. انتخاب پارامترها تحت تأثیر پیاده سازی است. نرخ یادگیری، لایه‌های مدفون و غیره نمونه‌هایی از این نوع پارامترهای متغیر هستند.

توضیح دهید که جدول هش چیست؟

هش کردن روشی برای تشخیص اشیاء منحصر به فرد از دسته ای از موارد مشابه است. در الگوریتم‌های هش، توابع هش کلیدهای بزرگی هستند که به کلیدهای کوچک تبدیل می‌شوند. مقادیر تابع هش در جداول هش، که ساختار داده‌ها هستند، نگهداری می‌شوند.

مفاهیم بردار ویژه و مقادیر ویژه را توضیح دهید.

هنگام استفاده از بردارهای ویژه، تبدیل‌های خطی مفید هستند. آنها بیشتر در علم داده برای ایجاد ماتریس‌های کوواریانس و همبستگی استفاده می‌شوند.

به بیان ساده، بردارهای ویژه موجودیت‌های جهت‌داری هستند که می‌توانند برای اعمال ویژگی‌های تبدیل خطی مانند فشرده سازی، چرخش و غیره استفاده شوند.

مقدار مشخصه‌های تبدیل خطی در امتداد هر جهت بردار ویژه با مقادیر ویژه اندازه گیری می‌شود.

در یک الگوریتم خوشه‌بندی، چگونه تعداد خوشه‌ها را تعریف می‌کنید؟

از امتیاز silhouette می‌توان برای محاسبه تعداد خوشه‌ها استفاده کرد. با استفاده از تکنیک‌های خوشه‌بندی، اغلب می‌توانیم برخی از نتایج را از داده‌ها استخراج کنیم تا تصویر کامل‌تری از تعداد کلاس‌های ارائه‌شده توسط داده‌ها به دست آوریم. در این مثال، امتیاز silhouette به ما در تعیین تعداد مراکز خوشه ای که باید داده‌های خود را در امتداد آنها خوشه بندی کنیم، کمک می‌کند.

روش elbow نیز یکی دیگر از تکنیک‌های قابل استفاده است.

برای تخمین اثربخشی مدل رگرسیون خطی از چه شاخص‌های عملکردی می‌توان استفاده کرد؟

در این شرایط، معیار عملکرد به شرح زیر است:

میانگین مربعات خطا (MSE) اندازه گیری میزان دقت است:

  • امتیاز R2
  • امتیاز R2 (تعدیل شده)
  • میانگین امتیاز مطلق

در درخت‌های تصمیم، تکنیک پیش فرض تقسیم چیست؟

شاخص جینی رویکرد استاندارد برای پارتیشن بندی درختان تصمیم است. شاخص جینی اندازه گیری ناخالصی یک گره است.

این را می‌توان با تغییر پارامترهای طبقه‌بندی کننده تغییر داد.

هدف از p-value چیست؟

مقدار p نشان دهنده احتمال درستی فرضیه صفر است. این به ما می‌گوید که یافته‌های ما چقدر از نظر آماری معنادار هستند. به عبارت دیگر، p-value اطمینان مدل را در یک نتیجه خاص تعیین می‌کند.

آیا می‌توان از رگرسیون لجستیک با بیش از دو کلاس استفاده کرد؟

از آنجایی که رگرسیون لجستیک یک طبقه بندی کننده باینری است، نمی‌توان از آن برای بیش از دو کلاس استفاده کرد. طبقه بندی کننده‌های Nave Bayes برای روش‌های طبقه بندی چند کلاسه مانند Decision Trees مناسب تر هستند.

نتیجه

امیدوارم این مجموعه سوالات و پاسخ‌های مصاحبه یادگیری ماشین به شما در آماده‌سازی برای سوالات مصاحبه یادگیری ماشین و همچنین در هنگام استخدام تحلیلگر داده و مهندس یادگیری ماشین برای شرکتتان کمک کند.

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

دکمه بازگشت به بالا