استاد راهنما:

دکتر سید مصطفی فخراحمد

برای رعایت حریم خصوصی نام نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :

فصل اول: پیشگفتار

1-1- مقدمه

بعضی نویسندگان داده کاوی را به عنوان ابزاری برای جستجو کردن اطلاعات سودمند در حجم زیادی از داده ها تعریف می کنند. برای انجام فرایند داده کاوی با زمینه های گوناگون تحقیقی مواجه می‌شویم، مانند پایگاه داده، یادگیری ماشین و آمار. پایگاه داده‌ها برای تحلیل کردن حجم زیادی از داده‌ها ضروری هستند. یادگیری ماشین، یک ناحیه هوش مصنوعی می باشد که با ایجاد تکنیک‌هایی امکان یادگیری به وسیله تحلیل مجموعه‌های داده‌ای را به کامپیوترها می‌دهند. تمرکز این روش‌ها روی داده سمبولیک می باشد و با واکاوی داده‌های تجربی سر و کار دارد. پایه آن تئوری آماری می باشد. در این تئوری عدم قطعیت و شانس به وسیله تئوری احتمال مدل می شوند. امروزه بسیاری از روش‌های آماری در زمینه داده کاوی بهره گیری می شوند. می‌توان گفت که متن کاوی از تکنیک‌های بازیابی اطلاعات، استخراج اطلاعات همچنین پردازش کردن زبان طبیعی بهره گیری می کند و آن‌ها را به الگوریتم‌ها و متدهای داده کاوی، یادگیری ماشین و آماری مرتبط می کند. با در نظر داشتن ناحیه‌های پژوهش گوناگون، بر هر یک از آن‌ها می‌توان تعاریف مختلفی از متن کاوی در نظر گرفت در ادامه بعضی از این تعاریف اظهار می شوند:

متن کاوی = استخراج اطلاعات: در این تعریف متن کاوی متناظر با استخراج اطلاعات در نظر گرفته می گردد (استخراج واقعیت‌ها از متن).

متن کاوی = کشف داده متنی: متن کاوی را می‌توان به عنوان متدها و الگوریتم‌هایی از فیلدهای یادگیری ماشین و آماری برای متن‌ها با هدف یافتن الگوهای مفید در نظر گرفت. برای این هدف پیش پردازش کردن متون ضروری می باشد. در بسیاری از روش‌ها، متدهای استخراج اطلاعات، پردازش کردن زبان طبیعی یا بعضی پیش پردازش‌های ساده برای استخراج داده از متون بهره گیری می گردد، سپس می‌توان الگوریتم‌های داده کاوی را بر روی داده‌های استخراج شده اعمال نمود.

متن کاوی = فرایند استخراج دانش: که در بخش قبلی به گونه کامل تبیین داده شده می باشد و در اینجا دیگر اظهار نمی‌گردد. در این پژوهش ما بیشتر متن کاوی را به عنوان کشف داده متنی در نظر می‌گیریم و بیشتر بر روی روش‌های استخراج الگوهای مفید از متن برای دسته‌بندی مجموعه‌ های متنی یا استخراج اطلاعات مفید، تمرکز می‌کنیم.

در دنیای کنونی مشکل کمبود اطلاعات نیست، بلکه مشکل کمبود دانشی می باشد که از این اطلاعات می توان بدست آورد. میلیونها صفحه ی وب، میلیونها کلمه در کتابخانه‌های دیجیتال و هزاران صفحه اطلاعات در هر شرکت، تنها چند دست از این منابع اطلاعاتی هستند. اما نمی‌توان به گونه مشخص منبعی از دانش را در این بین معرفی نمود. دانش اختصار‌ی اطلاعات می باشد و نیز نتیجه گیری و حاصل فکر و تحلیل بر روی اطلاعات.

داده کاوی، یک روش بسیار کارا برای کشف اطلاعات از داده‌های ساختیافته‌ای که در جداول نگهداری می شوند، می باشد. داده کاوی، الگوها را از تراکنش‌ها، استخراج می کند، داده را گروه‌بندی می کند و نیز آنرا دسته‌بندی می کند. بوسیله‌ی داده کاوی می‌توانیم به روابط میان اقلام داده‌ای که پایگاه داده را پر کرده‌اند، پی ببریم. در عین حال ما با داده کاوی مشکلی داریم و آن عدم وجود عامیت در کاربرد آن می باشد. بیشتر دانش ما اگر به صورت غیر دیجیتال نباشند، کاملاً غیر ساختیافته اند. کتابخانه‌های دیجیتال، اخبار، کتابهای الکترونیکی، بسیاری از مدارک مالی، مقالات علمی و تقریباً هر چیزی که شما می‌توانید در داخل وب بیابید، ساختیافته نیستند. در نتیجه ما نمی‌توانیم آموزه‌های داده کاوی را در مورد آنها به گونه مستقیم بهره گیری کنیم. با این حال، سه روش اساسی در روبرو شدن با این حجم وسیع از اطلاعات غیر ساختیافته هست که عبارتند از: بازیابی اطلاعات، استخراج اطلاعات و پردازش زبان طبیعی. جستجو در سایت :   

بازیابی اطلاعات: اصولاً مرتبط می باشد با بازیابی مستندات و مدارک. کار معمول دربازیابی اطلاعات این می باشد که با در نظر داشتن نیاز مطرح شده از سوی کاربر، مرتبط ترین متون و مستندات و یا در واقع بقچه‌ی کلمه را ازمیان دیگر مستندات یک مجموعه بیرون بکشد. این یافتن دانش نیست بلکه تنها آن بقچه‌ای از کلمات را که به نظرش مرتبط‌تر به نیاز اطلاعاتی جستجوگر می باشد را به او تحویل می‌دهد. این روش به واقع دانش و حتی اطلاعاتی را برایمان به ارمغان نمی‌آورد.

پردازش زبان طبیعی: هدف کلی پردازش زبان طبیعی رسیدن به یک درک بهتر از زبان طبیعی توسط کامپیوترهاست. تکنیک‌های مستحکم و ساده‌ای برای پردازش کردن سریع متن به کار می‌طریقه. همچنین از تکنیک‌های واکاوی زبان شناسی نیز برای پردازش کردن متن بهره گیری می گردد.

استخراج اطلاعات: هدف روش‌های استخراج اطلاعات، استخراج اطلاعات خاص از سندهای متنی می باشد. استخراج اطلاعات می‌تواند به عنوان یک فاز پیش پردازش در متن‌کاوی بکار برود. استخراج اطلاعات عبارتند از نگاشت کردن متن‌های زبان طبیعی (مثلا گزارش‌ها، مقالات journal، روزنامه‌ها، ایمیل‌ها، صفحات وب، هر پایگاه داده متنی و…..) به یک نمایش ساختیافته و از پیش تعریف شده یا قالب‌هایی که وقتی پر می شوند، منتخبی از اطلاعات کلیدی از متن اصلی را نشان می‌دهند. یکبار اطلاعات استخراج شده و سپس اطلاعات می‌توانند در پایگاه داده برای بهره گیری‌های آینده، ذخیره شوند.

2-1- کاربردهای متن کاوی

در این قسمت تعدادی از کاربردهای متن‌کاوری را اظهار خواهیم نمود. امروزه با وجود حجم زیادی از اطلاعات متنی، متن‌کاوی مانند روش های تحقیقی-تجاری می‌باشد که از اهمیت ویژه‌ای برخوردار می باشد. همه شرکت‌های تجاری، تولید کنندگان کالاها، ارائه کنندگان خدمات و سیاست‌مداران قادرند با بهره‌گیری از فرایند متن‌کاوی دانش مفیدی را به عنوان بازخورد از کالا، خدمات و عملکرد خود دریافت کنند. مانند کاربردهای متن کاوی می‌توان به موردها زیر تصریح نمود:    

1.شناساییspam: واکاوی کردن عنوان و محتوای یک ایمیل دریافتی، برای تشخیص اینکه آیا ایمیل می‌تواند spam باشد یاخیر.

2 .نظارت :یعنی نظارت کردن رفتار شخص یا گروهی از بشر‌ها به صورت پنهان. پروژه‌ای به نام ENCODA تلفن، اینترنت و دیگر وسایل ارتباطی را برای شناسایی تروریسم نظارت می کند.

3. شناسایی نامهای مستعار: نام‌های مستعار در مراقبت‌های پزشکی برای شناسایی تقلب‌ها واکاوی می شوند. برای مثال یک صورت حساب ممکن هست با نام John Smith، J. Smith و Smith, John ارائه گردد. از این طریق یا با بهره گیری از روش‌های دیگری مطالبه کنندگان امکان سوءاستفاده را خواهند پیدا نمود و مطالبات حق بیمه زیادی تحت نام‌های مستعار مختلف دریافت می‌کنند. بهره گیری از متن‌کاوی برای تشخیص این نام‌های مستعار می‌تواند در یافتن تقلب به شرکت‌های بیمه کمک فراوانی کند.

4.اختصار سازی: مقصود از اختصار سازی، طریقه استخراج و ارائه مجموعه‌ای مفاهیم پایه‌ای از متن، تنها در چند خط می باشد. این کار می‌تواند مطالعه محتویات مستندات را برای کاربران ساده‌تر کند و آنها را در مسیر رسیدن به آن چیز که نیاز دارند، سرعت بخشد.

5. روابط میان مفاهیم: مانند واقعیتهایی که می توان از یک مجموعه متون دریافت، ارتباط و وابستگی بعضی مفاهیم با مفاهیم دیگراست. این واقعیات به گونه مثال می‌تواند بگوید که پدیدار شدن بعضی کلمات ممکن می باشد که وابسته باشد به ظاهر شدن بعضی دیگر از کلمات. مقصود این می باشد که هرگاه مجموعه ی اول کلمات را ببینیم، می‌توانیم انتظار داشته باشیم که مجموعه‌ی دوم لغات را نیز در ادامه نظاره خواهیم نمود. این مفهوم نیز از داده کاوی در دیتابیس به امانت گرفته شده می باشد.

6. یافتن وتحلیل رفتارها: برای تبیین این کاربرد فرض کنید که مدیر یک کمپانی تجاری هستید. مشخصاً شما بایستی همواره بر فعالیتهای رقیبانتان نظارت داشته باشید. این می‌تواند هر نوع اطلاعاتی باشد که شما از اخبار، معاملات بورس و یا از مستندات تولید شده توسط همان کمپانی رقیب گرفته‌اید. امروزه اطلاعات به گونه فزآینده‌ای در حال افزایش می باشد، مدیریت تمامی این منابع داده‌ای قطعاً تنها به کمک چشمان ممکن نیست. متن‌کاوی این امکان را می‌دهد که به گونه خودکار رفتارها و تغییرات جدید را بیابید. در واقع آن چیز که اصولاً بایستی از متن‌کاوی انتظار برود این می باشد که به شما بگوید چه اخباری در میان گستره‌ای از اخبار به آن چیز که می خواهید مرتبط می باشد و در این بین کدام خبر جدیداست، چه پیشرفتهایی در زمینه‌ی کاری شما انجام می شود و علایق و رفتارهای فعلی چگونه می باشد و با چه روندی تغییر می کند. با بهره گیری از این اطلاعات، مدیران قادرند از اطلاعات کشف شده برای مطالعه وضعیت رقیب سود جویند.

7. تحلیل احساس : در این کاربرد هدف از متن کاوی تشخیص احساس نویسنده متن می باشد. درجه رضایت یا خوشحالی و ناراحتی نویسنده تشخیص داده می گردد. این رساله به مطالعه متن کاوی به مقصود تحلیل احساس موجود در متون خواهد پرداخت، پس در ادامه با جزئیات بیشتری تحلیل احساس در متون را مطالعه خواهیم نمود.

همه اطلاعات متنی را می‌توان به دو دسته:حقایق[1] و عقاید[2] دسته بندی نمود. حقایق عبارات علمی‌ و عملی درمورد موجودیت‌ها، رویدادها و ویژگی‌های آنها هستند که بصورت عینی و واقعی در دنیای بیرون وجود دارند یا به وقوع پیوسته‌اند. عقاید عبارات غیر عینی و ذهنی هستند که نظرات، ارزیابی‌ها یا احساسات افراد را درمورد یک موجودیت، رویداد و ویژگی‌های آنها اظهار می‌کنند [23]. شکل 1-1 مثالی را برای هر کدام اظهار می ‌کند. در این رساله تنها به یک جنبه از این مفهوم یعنی احساسات خواهیم پرداخت.

قبل از سال 2000 به دلیل کمبود منابع داده‌ای و کمبود متون حاوی نظرات و عقاید در تارنمای گسترده جهانی[1] تحقیقات اندکی در این زمینه به انجام رسیده می باشد. امروزه با گسترش اینترنت و همه‌گیر شدن شبکه‌های اجتماعی، کاربران می‌توانند نظرات خود درمورد محصولات یا خدمات را در سایت‌های تجاری، شبکه‌های اجتماعی، وبلاگ‌ها اظهار کنند؛ صفحات وب متون زیادی را در بر دارند که مشتمل بر نظرات، عقاید، ارزیابی کاربران پیرامون یک کالا یا خدمات خاص هستند. اطلاعاتی که از این نوع داده‌ها قابل دست‌یابی می باشد، برای شرکت‌های سازنده و همچنین سازمان‌های ارائه کننده خدمات بسیار مفید و گاهی ضروری خواهند ‌بود. همچنین برای کاربرانی که قصد انتخاب خدمات یا یک نوع کالا را دارند راهنمایی مفیدی را ارائه می‌دهند. شخصی را در نظر بگیرید که قصد دارد موبایل یا دوربین دیجیتالی بخرد، برای آگاهی از کیفیت دوربین و مطلوبیت خدمات شرکت سازنده بدون شک به پرسش و جمع‌آوری اطلاعات از اطرافیان روی خواهد آورد، اما امروزه با رشد اینترنت می‌توان بصورت آنلاین نظرات و تجربیات صدها نفر را درمورد یک کالای خاص مطالعه نمود و برای تصمیم گیری از آنها مدد گرفت.

امروزه تعدد و گوناگونی منابع اینترنتی حاوی نظرات و احساسات کاربران به حدی زیاد شده می باشد که یافتن و ارزیابی آنها کار بسیار پیچده‌ای می باشد. در بسیاری موردها نظرات و عقاید کاربر در یک پست طولانی پنهان شده می باشد. برای استخراج نظرات و عقاید درمورد یک موجودیت بایستی در آغاز منابع اینترنتی مرتبط با آن را پیدا نمود سپس متن مورد نظر خوانده گردد، جملات اظهار کننده نظرات و عقاید کاربر از متن استخراج شوند، اختصار سازی شوند و به فرم قابل بهره گیری تبدیل شوند. مانند مشکلاتی که در این زمینه هست حجم زیاد داده می‌باشد. در صفحه توییتر شخصی جاستین بیبر روزانه 300000 نظر ثبت می گردد [22]. این حجم از داده‌ها میتوانند اطلاعات مفیدی را برای شرکت‌ها و همچنین مشتری‌ها به همراه داشته باشند؛ اما پردازش آنها بصورت دستی و انسانی غیر ممکن می‌باشد، پس طراحی یک روش خودکار برای تحلیل متن و استخراج نظرات و عقاید موجود در متن ضروری می باشد. در همین راستا کوشش‌های فراوانی صورت گرفته می باشد، مثلا در کشور آمریکا 20 تا 30 شرکت به ارائه خدمات تخصصی تحلیل احساس می‌پردازند [17].

در این رساله روشی برای تحلیل احساس ارائه می گردد. روش پیشنهادی کوشش در ارائه مجموعه مناسبی از خصیصه‌ها[2] را دارد به نحوی که بتوان به دقت بهتری در ارزیابی خودکار متون دست پیدا نمود، همچنین تعداد خصیصه‌ها در حد متناسبی حفظ گردد. برای انتخاب خصیصه‌ها از الگوریتم‌های ساده و با حداقل پیچیدگی زمانی بهره می‌بریم و نیاز به بهره گیری از الگوریتم انتخاب خصیصه با پیچیدگی زمانی بالا مرتفع شده می باشد.

[1] World wide web

[2] Features

[1] Facts

[2] Opinion

***ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود می باشد***

متن کامل را می توانید دانلود نمائید

این مطلب رو هم توصیه می کنم بخونین:   پایان نامه ارشد رشته هوش مصنوعی: استفاده از کاربرانی با دقت پیشگویی بالا در سیستم­های فیلترینگ اشتراکی

زیرا فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به گونه نمونه)

اما در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود می باشد

تعداد صفحه : 77

دانلود متن کامل در سایت sabzfile.com
قیمت : 14700 تومان

 

***

—-

پشتیبانی سایت :       

****         serderehi@gmail.com