ارائه یک مدل جدید یادگیری به مقصود آموزش طبقه‌بندی‌ کننده‌های سریال

استاد راهنما:

دکتر رضا بوستانی

برای رعایت حریم خصوصی نام نگارنده پایان نامه درج نمی گردد

تکه هایی از متن پایان نامه به عنوان نمونه :

(ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل می باشد)

چکیده:

امروزه ایجاد و آموزش بهینه دسته‌بندی‌کننده های مستحکم و سریع به یکی از مهمترین دغدغه‌های علم هوش مصنوعی و به ویژه حوزه یادگیری ماشین بدل شده می باشد. با رشد روز افزون در حجم و سرعت تولید داده، نیاز به تولید دسته‌بندی‌کننده‌های دقیق و سریع بیش از پیش حس می گردد و در واقع یک چالش به شمار می رود. روش‌های یادگیری جمعی طی سالیان اخیر اثبات کرده‌اند که برای رفع معضلات یاد شده گزینه‌های مناسبی هستند.

روش‌های یادگیری جمعی، گروهی از مدل های ضعیف را تولید می‌کنند که با تلفیق مناسب و هوشمندانه خروجی آنها می توان به یک دسته‌بندی‌کننده قوی دست پیدا نمود. این روش‌ها زمانی که از الگوریتم‌های تقویتی در ساختار سریال بهره می‌برند، کارایی به مراتب بالاتری از خود نشان می‌دهند.

بهره گیری از شیوه تقسیم-و-تسخیر یا همان separate-and-conquer در زمان آموزش هر لایه از ساختار سریال، دلیل قدرت یادگیر‌های جمعی سریال می‌باشد؛ علاوه بر آن، تعیین مرزهای تصمیم موردها جزیی در دور‌های نخست ساختار سریال انجام می گردد و در دور‌های آتی این مرز پالایش شده و موردها سخت‌تر را در بر خواهد گرفت. عملکرد مدل کلاسیک ساختار سریال، در روبرو شدن با مسائل دوکلاسه، به این شکل می باشد که نمونه‌های غیر هدف که در لایه‌های اولیه یاد گرفته می شوند از سیستم حذف شده و با نمونه‌های سخت‌تر جایگزین می شوند؛ که می‌توان از این استراتژی با نام bootstrapping دانست. با این طریقه، یادگیری بهینه کلان-به-جزیی یا همان learning coarse-to-fine حاصل می گردد.

در این مطالعه، یک مدل جدید برای آموزش طبقه‌بندی‌کننده‌های سریال ارایه شده می باشد که از روش وارسی اعتبار در ساختار آن بهره گیری شده می باشد. در روش پیشنهادی، درصدی از داده‌های درست دسته‌بندی‌شده در لایه‌ نخست ساختار به مقصود حفظ عمومیت سیستم، برای آموزش به لایه بعدی فرستاده می گردد و این طریقه برای لایه‌های بعدی ادامه خواهد پیدا نمود. بدین ترتیب، مدل ارائه شده پیش روی داده‌های نویزی بسیار مقاوم بوده و انحراف معیار نرخ خطای آزمایش آن، از روش‌های رقیب کمتر می گردد.

فصل اول: مقدمه

1-1- مقدمه

امروزه شاهد رشد عظیمی در تولید داده هستیم. فعالیت‌ها و تعامل‌های روزانه بشر‌ها، حجم چشمگیری از داده‌ها و اطلاعات را به وجود می‌آورد؛ به عنوان مثال در ارتباطات از راه دور، تراکنش های‌مالی و بانکی، شبکه‌های اجتماعی، فعالیت‌های اینترنتی عام، امور مربوط به بهداشت و درمان، پایش اطلاعات امنیتی، اطلاعات و داده‌های آماری مانند سرشماری نفوس و بسیاری موردها دیگر [1,2]. با پیشرفت چشمگیر تجهیزات سخت افزاری، هزینه ذخیره داده کم شده می باشد؛ این در حالی می باشد که واکاوی صحیح و استخراج اطلاعات مفید از این حجم از داده به یک دغدغه تبدیل شده می باشد. هوش مصنوعی[1] و به ویژه حوزه یادگیری ماشین[2]، به دنبال یافتن روش‌ها و ابزار‌های موثر جهت رفع این مشکل می باشد.

2-1- یادگیری ماشین

اصلی‌ترین زمینه تحقیقاتی در حوزه یادگیری ماشین، شناسایی الگو[3] می باشد؛ یعنی استخراج اطلاعات و الگو‌های تکرار‌ شونده از داده ورودی[4]، که این اطلاعات برای انجام تصمیم‌گیری در مورد داده‌های نادیده[5] کاربرد دارد.

بر اساس نوع پیش بینی داده‌های ‌نادیده، انواع روش‌های شناسایی الگو را می توان به دو گروه کلی روش‌های مبتنی بر دسته‌بندی[6] و روش‌های مبتنی بر رگرسیون[7] تقسیم‌بندی نمود. سیستم‌های مبتنی بر دسته‌بندی، کوشش در ساختن مدلی دارند که خروجی آن گسسته[8] می‌باشد و این خروجی در واقع برچسب کلاسی[9] می باشد که سیستم برای یک نمونه خاص پیشنهاد می‌دهد؛ پیش روی، سیستم‌های مبتنی بر رگرسیون، تابعی پیوسته[10] را مدل می‌کنند و خروجی آنها به صورت عددی[11] می‌باشد.

یادگیری ماشین را می‌توان به چهار دسته کلی یادگیری با نظارت[12] و یادگیری بدون نظارت[13]، یادگیری نیمه نظارتی[14] و یادگیری فعال[15] تقسیم‌بندی نمود. در یادگیری با نظارت، سیستم با داده‌های آموزشی که دارای برچسب‌های کلاس معین هستند آموزش داده می گردد. این گروه از الگوریتم‌ها که بسیار رایج نیز می‌باشند، کوشش در ساخت مدلی دارند که به بهترین نحو داده‌های آموزشی را به برچسب کلاس داده شده‌ی آنها مرتبط سازند. مدل ساخته شده بر این اساس، در مرحله آزمایش[16] کوشش در پیش بینی برچسب کلاس داده‌های آزمایشی خواهد نمود. پیش روی این گروه از الگوریتم ها، الگوریتم های مبتنی بر یادگیری بدون نظارت، بدون دریافت برچسب کلاس داده‌های آموزشی، کوشش در دسته‌بندی داده‌های آموزشی می‌کنند؛ به این نوع از یادگیری، خوشه‌بندی[17] نیز گفته می گردد. گاهی تنها بخشی از برچسب کلاس داده‌های آموزشی در دسترس می باشد بنابر این دسته سوم از الگوریتم‌ها، یعنی الگوریتم‌های نیمه‌نظارتی، عملکردی مابین الگوریتم‌های نظارتی و الگوریتم‌های بدون نظارت دارند. در یادگیری فعال، سیستم در مرحله آموزش، با بشر تعامل دارد؛ به این شکل که بشر برچسب‌های مناسب را به داده‌‌های ورودی نسبت می‌دهد و سیستم با در نظر داشتن برچسب‌های اختصاص داده شده، به پایش اطلاعات خود و مدل آموزشی می‌پردازد.

این رساله منحصرا بر روش‌های دسته‌بندی مبتنی بر یادگیری نظارتی تمرکز دارد. به اظهار رسمی‌تر، الگوریتم‌هایی که از یک مجموعه آموزشی[18] مانند D، شامل n داده نمونه ورودی به فرم {(x1,y1),…, (xn,yn)} که هر نمونه متشکل از یک بردار خصیصه[19] با بعد d و یک برچسب کلاس که برای مسائل K کلاسه، آموزش می‌بینند و خروجی این آموزش، یک دسته‌بندی‌کننده[20] یا فرضیه[21] می باشد که در حالت ایده آل یک مرزبندی تصمیم[22] دقیق برای جدا‌سازی کلاس‌ها در کل فضای انجام خواهد داد.

3-1- الگوریتم­های یادگیری جمعی

القای دسته‌بندی‌کننده ها هنگامی که تعداد داده‌های آموزشی به طرز چشمگیری زیاد باشد با مشکل رو‌به‌رو خواهد گردید. این پدیده باعث به وجود آمدن مرزهای کلاس[23] پیچیده می گردد؛ یادگیری دقیق این مرز‌ها، برای دسته‌بندی‌کننده‌هایی که کوشش در تولید یک قانون برای توصیف داده دارند، به چالشی عظیم تبدیل می گردد. پیچیدگی این وضعیت زمانی به اوج خود می رسد که بردار خصیصه داده‌ها، دارای ابعاد بالا[24] باشد.

رواج خانواده خاصی از الگوریتم‌های یادگیری ماشین، تحت عنوان الگوریتم‌های یادگیری جمعی که کوشش در مواجهه و برطرف کردن چالش‌های موجود دارند، طی سال‌های اخیر بسیار چشمگیر بوده می باشد. این دسته از الگوریتم‌ها، موفقیت خود را مرهون عملکرد محافظه‌کارانه خود می‌باشند. در حالی که اکثر الگوریتم‌های یادگیری از القای یک دسته‌بندی‌کننده برای توصیف داده بهره گیری می‌کنند، الگوریتم‌های یادگیری جمعی از تعداد زیادی یادگیر‌های ضعیف[25]، که قدرت پیش بینی آنها اندکی بهتر از حدس تصادفی[26] می باشد، بهره می برند. به اظهار دیگر، ایده اصلی الگوریتم­های یادگیری جمعی، به‌کارگیری چندین یادگیر و ترکیب نتیجه پیش­بینی آن­ها به عنوان یک گروه از دسته‌بندی‌کننده‌ها و بالا بردن دقت کلی[27] یادگیری می باشد. به هر یک از اعضای موجود در این گروه از یادگیر­ها، یادگیر پایه[28] گفته می­گردد. در مسائل دسته­بندی، الگوریتم یادگیری جمعی به عنوان سیستم دسته­بندی چندگانه[29]، ائتلاف دسته‌­بندی‌کننده ­ها[30]، کمیته­ای از دسته‌­بندی‌کننده­ها[31] و یا ترکیب دسته‌بندی‌کننده­ها[32] نیز خوانده می­گردد. پیش­بینی هر یک از اعضا ممکن می باشد به صورت یک عدد حقیقی[33]، برچسب کلاس، احتمال پسین[34] و یا هر چیز دیگری باشد. چگونگی ترکیب رأی اعضای الگوریتم، در نتیجه­گیری نهایی بسیار مهم می باشد که شامل میانگین‌گیری، رأی به اکثریت[35] و روش‌های احتمالی می­گردد.

4-1- دسته بندی کننده های سریال

ویولا و جونز [3] در سال 2001 برای اولین بار قوانین روش‌های مبتنی بر یادگیری جمعی را به کمک مفهوم یادگیری کلان-به-جزیی[1] توسعه دادند. با این گام عظیم، آنها روشی را ابداع کردند که انجام دسته‌بندی دقیق و سریع بر روی مجموعه داده‌های تشخیص چهره[2]، که شامل صدها هزار داده بودند، را امکان پذیر می ساخت. روش ابداعی آنها به صورت یک ساختار سریال بود که دسته‌بندی‌کننده‌های جمعی را در لایه‌های متوالی به صورتی کنار هم قرار می‌داد که لایه‌های اولیه شامل تعداد کمی از دسته‌بندی‌کننده‌ها بود و این تعداد در لایه‌های بعدی به مرور افزایش می‌پیدا نمود. این روش تاثیر بسزایی در تولید دسته‌بندی‌کننده های پیمانه‌بندی‌شده[3] و دقیق داشت که به طبع، نه تنها در زمینه تشخیص چهره، بلکه در زمینه‌های مختلف کاربرد داشت. با این حال آموزش دسته‌بندی‌کننده‌های موثر با بهره گیری از روش ویولا و جونز، به علت زمانبر بودن بیش از حد مرحله آموزش، تقریبا مقرون‌به‌صرفه نبود.
دانلود متن کامل در سایت sabzfile.com
در تلاشی برای کاهش زمان آموزش دسته‌بندی‌کننده‌های سریال در روبرو شدن با مجموعه داده‌های بسیار بزرگ، بارکزاک و همکاران [4] یک روش سریال تودرتو ارایه کردند. آنها نام روش خود را PSL[4] نهادند که بیانگر دسته‌بندی‌کننده‌های تودرتوی سریال متشکل از دسته‌بندی‌کننده‌های قوی موازی در هر لایه می باشد.

[1] Coarse-to-fine learning

[2] Face recognition

[3] Boosting

[4] Parallel Strong classifiers within the same Layer

[1] Artificial intelligence

[2] Machine learning

[3] Pattern recognition

[4] Input data

[5] Unseen data

[6] Classification

[7] Regression

[8] Discrete

[9] Class label

[10] Continues-valued function

[11] Numerical

[12] Supervised learning

[13] Unsupervised learning

[14] Semi-supervised

[15] Active learning

[16] Testing phase

[17] Clustering

[18] Training set

[19] Feature vector جستجو در سایت :   

[20] Classifier

[21] Hypothesis

[22] Decision boundary

[23] Class boundaries  

[24] High dimensional

[25] Weak learners

[26] Random guess

[27] Overall accuracy

[28] Base learner

[29] Multiple classifier system

[30] Classifier fusion

[31] Committee of classifiers

[32] Classifier combination

[33] Real number

[34] Posterior probability

[35] Majority vote

تعداد صفحه : 100

قیمت : 14700 تومان

این مطلب رو هم توصیه می کنم بخونین:   دانلود پایان نامه ارشد رشته کامپیوتر : سیستم های وب کاوی چند عامله

بلافاصله پس از پرداخت لینک دانلود فایل در اختیار شما قرار می گیرد

و در ضمن فایل خریداری شده به ایمیل شما ارسال می گردد.

پشتیبانی سایت :       

****         serderehi@gmail.com