سوالات مصاحبه یادگیری ماشین کدامند و چه پاسخی باید دریافت کنید؟
برای انجام یک مصاحبه یادگیری ماشینی، یک روش مصاحبه سختگیرانه مورد نیاز است، که در آن داوطلبان براساس معیارهای متعددی مانند مهارتهای فنی و برنامهنویسی، درک روش و وضوح مفاهیم اولیه مورد قضاوت قرار میگیرند. اگر میخواهید برای موقعیت شغلی یادگیری ماشینی درخواست کار ارسال کنید، بهتر است از انواع سوالات مصاحبه یادگیری ماشین که مدیران منابع انسانی میپرسند اطلاع کسب کنید.
ما فهرستی از متداولترین سوالات مصاحبه یادگیری ماشینی را که ممکن است در طول مصاحبه با آنها مواجه شوید، گردآوری کردهایم.
تفاوت بین هوش مصنوعی (AI)، یادگیری ماشین (ML) و یادگیری عمیق (DL) چیست؟
حوزه هوش مصنوعی (AI) با ایجاد ماشینهای هوشمند سروکار دارد. سیستمهایی که میتوانند از تجربه یاد بگیرند (دادههای آموزشی) به عنوان یادگیری ماشین (ML) شناخته میشوند، در حالی که سیستمهایی که از تجربه در مجموعه دادههای بزرگ یاد میگیرند به عنوان یادگیری عمیق (DL) نامیده میشوند. هوش مصنوعی را میتوان زیرمجموعه ای از یادگیری ماشینی در نظر گرفت. یادگیری عمیق (DL) شبیه به یادگیری ماشین (ML) است، اما برای مجموعه دادههای بزرگ مناسبتر است.
مهم ترین تمایز بین یادگیری ماشینی تحت نظارت و بدون نظارت چیست؟
تکنیک یادگیری نظارت شده برای آموزش مدل، به دادههای برچسبدار نیاز دارد. به عنوان مثال، برای حل یک مشکل طبقهبندی (یک کار یادگیری تحت نظارت)، به دادههای برچسبدار برای آموزش مدل و همچنین گروههای برچسبگذاری شده برای طبقهبندی دادهها نیاز دارید. در یادگیری بدون نظارت نیازی به مجموعه داده برچسبدار نیست. این مهم ترین تمایز بین یادگیری تحت نظارت و بدون نظارت است.
هنگام کار با یک مجموعه داده، چگونه متغیرهای مهم را انتخاب میکنید؟
روشهای مختلفی برای انتخاب متغیرهای کلیدی از مجموعه داده وجود دارد، از جمله:
- قبل از تصمیمگیری درمورد عوامل حیاتی، متغیرهای مرتبط را شناسایی و حذف کنید.
- متغیرها ممکن است با استفاده از مقادیر ‘p’ از روشهای انتخاب رگرسیون خطی رو به جلو، عقب و گام به گام انتخاب شوند.
- رگرسیون با Lasso
- نمودار متغیر تصادفی برای forest و نمودار
- ویژگیهای برتر را میتوان بسته به میزان اطلاعات به دست آمده درمورد مجموعه ویژگیهای ارائه شده، انتخاب کرد.
تمایز بین رابطه علت و معلولی و همبستگی را توضیح دهید
رابطه علت و معلولی یا همان قانون علیت به شرایطی اشاره دارد که در آن یک عمل، مانند X، به نتیجه ای مانند Y منجر میشود، در حالی که همبستگی صرفاً به رابطه بین یک عمل (X) و یک عمل دیگر (Y) اشاره دارد، اگرچه X همیشه به Y منجر نمیشود.
تقریباً همه روزه به نرمافزار یادگیری ماشین نگاهی میاندازیم. بهترین راه برای اعمال یادگیری ماشین در سختافزار چیست؟
برای اعمال یادگیری ماشینی در سخت افزار، ابتدا باید الگوریتمهای ML را در System Verilog، که یک زبان توسعه سختافزار است ایجاد کنیم و سپس آنها را در یک FPGA برنامهریزی کنیم.
در یادگیری ماشینی، چه زمانی منظمسازی وارد عمل میشود؟
منظمسازی زمانی اهمیت پیدا میکند که مدل شروع به عدم تناسب یا تناسب بیش از حد میکند. این یک نوع رگرسیون است که تخمین ضریب را به سمت صفر منحرف یا منظم میکند. برای به حداقل رساندن تناسب بیش از حد، انعطاف پذیری را کاهش میدهد و یادگیری در یک مدل را منع میکند. پیچیدگی مدل کاهش مییابد و توانایی پیش بینی آن را بهبود میبخشد.
چه رابطهای بین انحراف معیار و واریانس وجود دارد؟
انحراف از معیار میزان انحراف دادههای شما از میانگین را اندازهگیری میکند. اما میانگین درجه تفاوت هر نقطه با میانگین یا میانگین تمام نقاط داده، واریانس نامیده میشود. چون انحراف از معیار جذر واریانس است، میتوانیم این دو را به هم وصل کنیم.
آیا تنوع زیاد در دادهها چیز خوبی است یا منفی؟
واریانس بالاتر نشان میدهد که گستره تنوع دادهها بسیار زیاد است و این ویژگی دارای طیف گستردهای از دادهها است. نوسانات زیاد در یک ویژگی معمولاً به عنوان نشانهای از کیفیت پایین در نظر گرفته میشوند.
اگر مجموعه داده دارای واریانس بالایی باشد چه کاری انجام میدهید؟
میتوانیم از تکنیک دستهبندی برای مدیریت مجموعههای داده که تنوع زیادی دارند، استفاده کنیم. با نمونهگیری تکرار شده از دادههای تصادفی، الگوریتم دستهبندی، دادهها را به زیر گروهها تقسیم میکند. دادههای تصادفی برای توسعه قوانین با استفاده از یک الگوریتم آموزشی پس از جداسازی دادهها استفاده میشود. سپس از روش نظرسنجی برای ترکیب تمامی نتایج پیش بینی شده مدل استفاده میشود.
چگونه مقادیر از دست رفته یا خراب در مجموعه داده باید مدیریت شوند؟
حذف سطرها یا ستونهای مربوطه یک تکنیک ساده برای مقابله با مقادیر از دست رفته یا خراب است. اگر تعداد سطرها یا ستونهای زیادی برای حذف وجود دارد، ورودیهای گمشده یا خراب را با مقادیر جدید جایگزین میکنیم.
توابع IsNull() و dropna() در Pandas میتوانند برای یافتن مقادیر گمشده و رها کردن سطرها یا ستونها استفاده شوند. علاوه بر این، تابع Fillna() Pandas مقادیر اشتباه را با مقادیر placeholder جایگزین کنند.
سری زمانی دقیقا چیست؟
سری زمانی مجموعهای از نقاط داده عددی است که به ترتیب منطقی مرتب شدهاند. نقاط دادهها را در فواصل منظم ثبت میکند و حرکت نقاط دادههای انتخابی را در یک دوره زمانی مشخص دنبال میکند. هیچ الزامی برای حداقل یا حداکثر ورودی زمانی در یک سری زمانی وجود ندارد. سریهای زمانی اغلب توسط تحلیلگران برای تجزیه و تحلیل دادهها به منظور برآوردن نیازهای فردی آنها استفاده میشود.
تبدیل Box-Cox چیست و چگونه کار میکند؟
از آنجایی که نرمال بودن رایجترین فرضی است که هنگام استفاده از تکنیکهای آماری مختلف ایجاد میشود، تبدیل Box-Cox متغیرهای وابسته غیرنرمال را به متغیرهای نرمال تبدیل میکند. وقتی روی 0 تنظیم شود، آرگومان لامبدا نشان میدهد که این تبدیل با تبدیل log قابل مقایسه است. برای نرمال کردن توزیع و تثبیت واریانس استفاده میشود.
تفاوت بین شیب نزولی (GD) و شیب نزولی تصادفی (SGD) چیست؟
الگوریتمهای Gradient Descent و Stochastic Gradient Descent مجموعه پارامترهایی که ضرر تابع را به حداقل میرساند، تعیین میکنند.
Gradient Descend از این جهت متفاوت است که تمام نمونههای آموزشی برای هر مجموعه از پارامترها ارزیابی میشوند. برای مجموعه پارامترهای شناسایی شده در نزول گرادیان تصادفی، فقط یک نمونه آموزشی مورد بررسی قرار میگیرد.
مشکل گرادیان انفجاری تکنیک پس انتشار چیست؟
مشکل گرادیان انفجاری زمانی رخ میدهد که گرادیانهای خطای قابل توجهی ایجاد میشوند و منجر به تغییرات عظیمی در وزن شبکههای عصبی در طول تمرین میشوند. مقادیر وزن میتوانند آنقدر بزرگ شوند که سرریز شوند و در نتیجه مقادیر NaN ایجاد شود. همانند مشکل گرادیان ناپدید شدن، این امر باعث ناپایداری مدل میشود و باعث توقف فرآیند یادگیری میشود.
آیا میتوانید برخی از مزایا و معایب درختهای تصمیمگیری را فهرست کنید؟
درختهای تصمیم از مزایای خواندن آسانتر، ناپارامتریک بودن و در نتیجه انعطافپذیری نسبت به نقاط پرت و داشتن تعداد کمی پارامتر برای تغییر دادن برخوردارند.
از طرف دیگر، آنها مشکل مستعد بودن بیش از حد را دارند.
تبدیل Fourier چیست و چگونه کار میکند؟
تبدیل Fourier یک رویکرد ریاضی برای تبدیل هر تابع زمانی به تابع فرکانس است. تبدیل Fourier و سری Fourier مفاهیمی نزدیک به هم هستند. با استفاده از هر الگوی مبتنی بر زمان به عنوان ورودی، افست چرخه کلی، سرعت چرخش و قدرت را برای همه چرخههای ممکن، تعیین میکند. از آنجایی که دارای توابع زمان و مکان است، تبدیل Fourier به بهترین وجه برای شکل موج اعمال میشود. هنگامی که یک شکل موج تحت تبدیل Fourier قرار میگیرد، به یک شکل موج سینوسی تبدیل میشود.
منظور از حاشیهنشینی چیست؟ روال را شرح دهید.
جمع کردن احتمال یک متغیر تصادفی X با توجه به توزیع احتمال ترکیبی آن با سایر متغیرها به عنوان حاشیهسازی شناخته میشود. موردی است که از قانون احتمال کل استفاده میشود.
P(X=x) = ∑YP(X=x,Y)
ممکن است از حاشیه برای تعیین P(X=x, Y) با توجه به احتمال مشترک P(X=x, Y) استفاده کنیم. بنابراین، با اضافه کردن موارد روی سایر متغیرهای تصادفی، میتوان توزیع یک متغیر تصادفی را شناسایی کرد.
وقتی رگرسیون روی زیرمجموعههای مختلف یک مجموعه داده انجام میشود، اگر مقدار بتا برای یک متغیر معین در هر زیرمجموعه بیش از حد نوسان کند، ممکن است چه مشکلی ایجاد شود؟
این واقعیت که مقادیر بتا در هر زیرگروه متفاوت است نشان میدهد که مجموعه داده متنوع است. برای حل این مشکل، میتوانیم از یک مدل متفاوت برای هر یک از زیر مجموعههای خوشهبندی شده مجموعه داده استفاده کنیم، یا میتوانیم از یک مدل ناپارامتریک مانند درختهای تصمیم استفاده کنیم.
معنی اصطلاح عامل تورم واریانس چیست؟
ضریب تورم تغییر (VIF) نسبت واریانس مدل به واریانس مدل زمانی است که فقط یک متغیر مستقل وجود دارد. حجم چند خطی در مجموعه ای از متغیرهای رگرسیون چندگانه با استفاده از VIF برآورد میشود.
VIF = واریانس مدل با یک متغیر مستقل
نام الگوریتم یادگیری ماشین معروف به یادگیرنده تنبل چیست و چرا اینطور است؟
یک یادگیرنده کند، KNN یک الگوریتم یادگیری ماشینی است. K-NN یک یادگیرنده تنبل است زیرا هیچ مقدار یا متغیری را که توسط ماشین آموخته شده باشد را از دادههای آموزشی یاد نمیگیرد، به جای محاسبه فاصله به صورت پویا هر بار که میخواهد مجموعه داده آموزشی را طبقه بندی و در نتیجه به خاطر میسپارد.
آیا امکان پردازش تصاویر با KNN وجود دارد؟
بله میتوان از KNN میتوان برای پردازش تصاویر استفاده کرد. این کار با تبدیل تصویر سه بعدی به یک بردار تک بعدی و تغذیه آن به KNN امکان پذیر است.
رویکرد الگوریتم SVM برای خودآموزی چیست؟
این توسط نرخ یادگیری و گسترش SVM مراقبت میشود. نرخ یادگیری، هایپرپلنها را برای تمام حرکات نادرستشان جبران یا جریمه میکند، در حالی که نرخ انبساط مربوط به تعیین حداکثر منطقه جدایی بین طبقات است.
در SVM، کرنلها چیست؟ رایج ترین هستههای مورد استفاده در SVM را به همراه سناریوی نحوه به کارگیری آنها فهرست کنید
وظیفه کرنل گرفتن داده و تبدیل آن به فرمت مورد نیاز است. RBF، Linear، Sigmoid، Polynomial، Hyperbolic، Laplace، و دیگر هستههای برجسته SVM عبارتند از:
در الگوریتم SVM، ترفند هسته چیست؟
Kernel Trick یک فرمول ریاضی است که میتواند برای کشف ناحیه طبقه بندی بین دو کلاس در هنگام اعمال بر روی نقاط داده استفاده شود. یک طبقهبندی کننده میتواند براساس تابع انتخاب شدهی خطی یا شعاعی که صرفاً به توزیع دادهها وابسته است، ساخته شود.
مدلهای مجموعه چیست و چگونه کار میکنند؟ توضیح دهید که چرا تکنیکهای گروهی نسبت به الگوریتمهای یادگیری ماشینی طبقهبندی معمولی یادگیری بهتری ایجاد میکنند؟
گروه مجموعه ای از مدلها است که با هم برای طبقه بندی و پیش بینی رگرسیون استفاده میشود. از آنجا که چندین مدل را با هم ترکیب میکند، یادگیری گروهی نتایج ML را بهبود میبخشد. در مقایسه با یک مدل واحد، این عملکرد پیش بینی بهبود یافته را فراهم میکند.
آنها با کاهش واریانس، میانگین گیری از تعصبات، و کاهش خطر بیش از حد برازش، از مدلهای فردی بهتر عمل میکنند.
خطای OOB چیست و چگونه اتفاق میافتد؟
یک سوم دادهها در هر نمونه بوت استرپ یا خود راه انداز، در ساختار درختی استفاده نشد، یعنی در نمونه گنجانده نشد. اطلاعات خارج از دسته نامی است که به این نوع اطلاعات داده شده است. خطای خارج از دسته برای به دست آوردن یک ارزیابی بی طرفانه از دقت مدل درمورد دادههای آزمایشی استفاده میشود. دادههای خارج از دسته از طریق هر درخت منتقل میشود و خروجیها برای تعیین خطای خارج از دسته میانگین میشوند. این درصد خطا در تخمین خطا در مجموعه تست بسیار موثر است و نیازی به اعتبارسنجی متقاطع بیشتری ندارد.
در مقایسه با سایر روشهای مجموعه، چرا تقویت الگوریتم پایدارتری است؟
Boosting روی تکرار خطاهای قبلی متمرکز میشود تا زمانی که دیگر اتفاق نیفتند. در مقابل، هیچ حلقه اصلاحی در دسته سازی وجود ندارد. به همین دلیل است که در مقایسه با سایر الگوریتمهای مجموعه، تقویت رویکرد پایدارتری است.
چگونه با دادههای پرت برخورد میکنید؟
داده پرت، داده ای است که به طور قابل ملاحظه ای با بقیه مجموعه دادهها متفاوت است. موارد دورافتاده را میتوان با استفاده از ابزارها و توابع بهینه سازی مانند نمودار جعبه، نمودار پراکندگی، امتیاز Z و امتیاز IQR یافت و سپس براساس تجسمی که داریم آنها را به کار ببریم. برای مقابله با موارد پرت، میتوان محدودیت تعیین کرد، تغییراتی را برای کاهش چولگی در دادهها به کار برد، و ناهنجاریها یا خطاها را در صورت پرت بودن حذف کرد.
فهرستی از پرکاربردترین روشهای اعتبارسنجی متقابل تهیه کنید.
رویههای اعتبارسنجی متقابل به شش دسته تقسیم میشوند. در زیر به برخی از آنها اشاره میشود:
- K fold
- طبقه بندی K fold
- یکی را کنار بگذار
- بوت استرپینگ یا خود راه اندازی
- جستجوی تصادفی cv
- سی وی جستجوی شبکه
آیا راهی برای آزمایش احتمال بهبود صحت مدل بدون استفاده از تکنیکهای اعتبارسنجی متقابل وجود دارد؟ اگر چنین است، توضیح دهید.
بدون استفاده از رویکردهای اعتبارسنجی متقابل، امکان آزمایش احتمال بهبود صحت مدل وجود دارد. ما میتوانیم با تکرار مدل ML برای n تکرار و ثبت دقت به این امر دست یابیم. تمام دقتها را رسم کنید و 5 درصد مقادیر را با احتمال کم کنار بگذارید. برشهای چپ [کم] و راست [بالا] را اندازه گیری کنید. میتوان گفت که مدل میتواند با 95% اطمینان باقیمانده، به همان اندازه پایین یا بالا برود [همانطور که در نقاط برش نشان داده شده است.
اهمیت چرخش اجزا در تجزیه و تحلیل اجزای اصلی (PCA) چیست؟
چرخش در PCA حیاتی است زیرا جداسازی درون واریانس بدستآمده توسط همه اجزا را بهینه میکند و تفسیر جزء را آسانتر میکند. اگر مولفهها چرخانده نشوند، برای نمایش واریانس مؤلفهها به مؤلفههای توسعهیافته نیاز داریم.
چرا رگرسیون لجستیک یک روش طبقهبندی است تا یک رگرسیون؟ نام تابعی که از آن مشتق شده چیست؟
با توجه به ماهیت طبقه بندی ستون هدف، از رگرسیون خطی برای تولید یک تابع فرد استفاده میشود که در یک تابع log پیچیده شده است تا از رگرسیون به عنوان طبقه بندی کننده استفاده شود. در نتیجه، این یک رویکرد طبقه بندی است تا یک رگرسیون. از تابع هزینه میآید.
وقتی رگرسیون روی زیرمجموعههای مختلف یک مجموعه داده انجام میشود، اگر مقدار بتا برای یک متغیر معین در هر زیرمجموعه بیش از حد نوسان کند، چه مشکلی میتواند ایجاد کند؟
این واقعیت که مقادیر بتا در هر زیرگروه متفاوت است نشان میدهد که مجموعه داده متنوع است. برای حل این مشکل، میتوانیم از یک مدل متفاوت برای هر یک از زیر مجموعههای خوشهبندی شده مجموعه داده استفاده کنیم، یا میتوانیم از یک مدل ناپارامتریک مانند درختهای تصمیم استفاده کنیم.
مثالی از یک الگوریتم کاهش ابعاد شناخته شده را بیاورید.
تجزیه و تحلیل مؤلفه اصلی و تحلیل عاملی دو روش محبوب کاهش ابعاد هستند.
از مجموعه گستردهتری از متغیرهای قابل اندازهگیری، تجزیه و تحلیل مؤلفه اصلی یک یا چند متغیر شاخص ایجاد میکند. مدلی برای اندازه گیری متغیر پنهان، تحلیل عاملی است. این متغیر پنهان با رابطه ای که در گروهی از متغیرهای y ایجاد میکند دیده میشود و نمیتوان آن را با یک متغیر ارزیابی کرد.
چگونه میتوانیم الگوریتمهای یادگیری نظارت شده را به مجموعه دادهای که فاقد متغیر هدف هستند، وابسته کنیم؟
دادهها را در یک الگوریتم خوشه بندی قرار دهید، بهترین گروه بندیها را پیدا کنید و اعداد خوشه را به عنوان متغیر هدف جدید برچسب گذاری کنید. اکنون مجموعه داده شامل متغیرهای مستقل و هدف است. این تضمین میکند که مجموعه داده برای تکنیکهای یادگیری نظارت شده آماده است.
چگونه به مسائل مربوط به پراکندگی در سیستمهای توصیه رسیدگی کنیم؟ چگونه بفهمیم که کار میکند؟
ماتریس پیش بینی را میتوان با استفاده از تجزیه مقدار منفرد ایجاد کرد. ریشه به معنای مربع خطا (RMSE) متریکی است که نشان میدهد ماتریس پیش بینی چقدر به ماتریس اصلی نزدیک است.
رویکردهای مورد استفاده در سیستم توصیه برای یافتن نقاط مشترک را نام برده و مشخص کنید.
از تکنیکهای همبستگی پیرسون و همبستگی کسینوس در سیستمهای توصیه برای کشف شباهتها استفاده میشود.
اصطلاح یادگیری مبتنی بر نمونه به چه معناست؟
یادگیری مبتنی بر نمونه مجموعهای از الگوریتمهای رگرسیون و طبقهبندی شده است که یک پیشبینی با برچسب کلاس را براساس شباهتها به نزدیکترین همسایگان مجموعه دادههای آموزشی انجام میدهد. این الگوریتمها به سادگی تمام دادهها را جمع آوری میکنند و در صورت درخواست، پاسخ را ارائه میدهند. به بیان ساده، آنها مجموعه ای از فرآیندها برای حل مسائل جدید هستند که براساس پاسخهای قبلی به برخی مشکلات که با چالش فعلی قابل مقایسه هستند ساخته شدهاند.
تفاوت Lasso و Ridge چیست؟
تکنیکهای منظمسازی مانند Lasso(L1) و Ridge(L2) ضرایب را برای یافتن بهترین راه حل جریمه میکنند. مجموع مجذورات ضرایب تابع تنبیه را در خط الراس تعریف میکند، در حالی که مجموع مقادیر مطلق ضرایب در lasso جریمه میشود. ElasticNet یک تابع جریمه ترکیبی از lasso و Ridge است که به عنوان یک ابزار منظم سازی استفاده میشود.
چگونه میتوانید تفاوت بین مدلسازی آماری و یادگیری ماشین را تشخیص دهید؟
مدلهای یادگیری ماشینی برای پیشبینی دقیق درمورد سناریوهایی مانند ترافیک پای رستوران، قیمت سهام و غیره استفاده میشوند، در حالی که مدلهای آماری برای استنباط بین متغیرهایی مانند آنچه باعث فروش رستوران میشود استفاده میشود: آشپزی یا محیط.
اصطلاحات Gamma و Regularization در SVM به چه معناست؟
تأثیر با گاما تعریف میشود. اعداد کم نشان دهنده فاصله هستند، در حالی که مقادیر زیاد نشان دهنده نزدیکی هستند. اگر گاما خیلی بزرگ باشد، شعاع حوزه اثر بردارهای پشتیبان فقط خود بردار پشتیبان را در بر میگیرد و هیچ مقدار منظم سازی با استفاده از C نمیتواند از برازش بیش از حد جلوگیری کند. اگر گاما خیلی کوچک باشد، مدل برای توصیف پیچیدگی داده بسیار محدود است.
پارامتر منظم سازی (لامبدا) برای تعیین اهمیت عدم طبقه بندیها استفاده میشود. این میتواند برای نشان دادن مبادله OverFitting استفاده شود.
منحنی ROC را تعریف کنید؟
منحنی ROC یک نمایش گرافیکی از تفاوت بین نرخهای مثبت واقعی و مثبت کاذب در آستانههای مختلف است. این به عنوان یک پروکسی برای معاوضه مثبت واقعی در مقابل مثبت کاذب استفاده میشود.
تفاوت بین مدل افتراقی و مولد چیست؟
مدل تولیدی مدلی است که انواع مختلفی از دادهها را یاد میگیرد. از سوی دیگر، یک مدل متمایز به سادگی تفاوتهای بین انواع مختلف دادهها را میآموزد. وقتی صحبت از مشکلات طبقه بندی میشود، مدلهای متمایز به طور قابل توجهی از مدلهای تولیدی بهتر عمل میکنند.
تفاوت بین هایپرپارامترها و پارامترها چیست؟
پارامتر یک متغیر، مدل داخلی است که مقدار آن براساس دادههای آموزشی تخمین زده میشود. آنها اغلب به عنوان بخشی از مدلی که آموزش داده شده ذخیره میشوند. وزن ها، سوگیریها و سایر متغیرها نمونههایی از پارامترها هستند.
هایپرپارامتر متغیری است که بخشی از مدل نیست و مقدار آن را نمیتوان از روی دادهها حدس زد. پارامترهای مدل اغلب با استفاده از آنها تخمین زده میشوند. انتخاب پارامترها تحت تأثیر پیاده سازی است. نرخ یادگیری، لایههای مدفون و غیره نمونههایی از این نوع پارامترهای متغیر هستند.
توضیح دهید که جدول هش چیست؟
هش کردن روشی برای تشخیص اشیاء منحصر به فرد از دسته ای از موارد مشابه است. در الگوریتمهای هش، توابع هش کلیدهای بزرگی هستند که به کلیدهای کوچک تبدیل میشوند. مقادیر تابع هش در جداول هش، که ساختار دادهها هستند، نگهداری میشوند.
مفاهیم بردار ویژه و مقادیر ویژه را توضیح دهید.
هنگام استفاده از بردارهای ویژه، تبدیلهای خطی مفید هستند. آنها بیشتر در علم داده برای ایجاد ماتریسهای کوواریانس و همبستگی استفاده میشوند.
به بیان ساده، بردارهای ویژه موجودیتهای جهتداری هستند که میتوانند برای اعمال ویژگیهای تبدیل خطی مانند فشرده سازی، چرخش و غیره استفاده شوند.
مقدار مشخصههای تبدیل خطی در امتداد هر جهت بردار ویژه با مقادیر ویژه اندازه گیری میشود.
در یک الگوریتم خوشهبندی، چگونه تعداد خوشهها را تعریف میکنید؟
از امتیاز silhouette میتوان برای محاسبه تعداد خوشهها استفاده کرد. با استفاده از تکنیکهای خوشهبندی، اغلب میتوانیم برخی از نتایج را از دادهها استخراج کنیم تا تصویر کاملتری از تعداد کلاسهای ارائهشده توسط دادهها به دست آوریم. در این مثال، امتیاز silhouette به ما در تعیین تعداد مراکز خوشه ای که باید دادههای خود را در امتداد آنها خوشه بندی کنیم، کمک میکند.
روش elbow نیز یکی دیگر از تکنیکهای قابل استفاده است.
برای تخمین اثربخشی مدل رگرسیون خطی از چه شاخصهای عملکردی میتوان استفاده کرد؟
در این شرایط، معیار عملکرد به شرح زیر است:
میانگین مربعات خطا (MSE) اندازه گیری میزان دقت است:
- امتیاز R2
- امتیاز R2 (تعدیل شده)
- میانگین امتیاز مطلق
در درختهای تصمیم، تکنیک پیش فرض تقسیم چیست؟
شاخص جینی رویکرد استاندارد برای پارتیشن بندی درختان تصمیم است. شاخص جینی اندازه گیری ناخالصی یک گره است.
این را میتوان با تغییر پارامترهای طبقهبندی کننده تغییر داد.
هدف از p-value چیست؟
مقدار p نشان دهنده احتمال درستی فرضیه صفر است. این به ما میگوید که یافتههای ما چقدر از نظر آماری معنادار هستند. به عبارت دیگر، p-value اطمینان مدل را در یک نتیجه خاص تعیین میکند.
آیا میتوان از رگرسیون لجستیک با بیش از دو کلاس استفاده کرد؟
از آنجایی که رگرسیون لجستیک یک طبقه بندی کننده باینری است، نمیتوان از آن برای بیش از دو کلاس استفاده کرد. طبقه بندی کنندههای Nave Bayes برای روشهای طبقه بندی چند کلاسه مانند Decision Trees مناسب تر هستند.
نتیجه
امیدوارم این مجموعه سوالات و پاسخهای مصاحبه یادگیری ماشین به شما در آمادهسازی برای سوالات مصاحبه یادگیری ماشین و همچنین در هنگام استخدام تحلیلگر داده و مهندس یادگیری ماشین برای شرکتتان کمک کند.