ایستگاه برنامه نویسی

این سایت مختص تمام زبان های برنامه نویسی میباشد

ایستگاه برنامه نویسی

این سایت مختص تمام زبان های برنامه نویسی میباشد

  • ۰
  • ۰

داده کاوی چیست

 

داده کاوی چیست؟

داده کاوی، به منظور کشف قوانین و مدل های مربوطه شامل: اکتشاف و تجزیه و تحلیل داده های بزرگ است. این یک رشته در زمینه مطالعات علوم داده در نظر گرفته شده است و با تجزیه و تحلیل پیش بینی که توصیف داده های تاریخی است متفاوت است در حالی که داده کاوی با هدف پیش بینی نتایج آینده است. علاوه بر این ، از تکنیک های داده کاوی برای ایجاد مدل های یادگیری ماشینی استفاده می شود که از برنامه های هوش مصنوعی مدرن بهره می برد.
مانند الگوریتم های موتور جستجو و سیستم توصیه.

نحوه کشف داده ها

روش پذیرش داده کاوی شش مرحله دارد:

درک فعالیت ها

اولین قدم تعریف اهداف پروژه و تعیین چگونگی استخراج داده هاست.
این کار می تواند در رسیدن هدف به شما کمک کند. در این مرحله باید طرحی تدوین شود که شامل جدول زمانی ، اقدامات و تکالیف نقش باشد.

درک داده ها

داده ها از کلیه منابع داده قابل استفاده در این مرحله جمع آوری می شود. ابزارهای تجسم داده ها غالباً در این مرحله برای کشف خصوصیات داده ها مورد استفاده قرار می گیرند تا اطمینان حاصل شود که آنها در دستیابی به اهداف تجاری کمک می کنند.

تهیه داده

سپس داده ها تمیز می شوند و داده های گمشده برای اطمینان از آماده بودن برای استخراج درج می شوند. پردازش داده ها بسته به میزان داده های تحلیل شده و تعداد منابع داده می تواند زمان زیادی را صرف کند. در نتیجه ، سیستم های توزیع شده در سیستم های مدرن مدیریت پایگاه داده برای سرعت بخشیدن به فرآیند داده کاوی به جای بارگذاری بیش از یک سیستم واحد استفاده می شوند.این مهم است که اقدامات امنیتی را هنگام دست زدن به داده ها درج کنید تا آنها به طور دائم از بین نروند.

مدل سازی داده ها

سپس از مدلهای ریاضی برای کشف الگوهای داده با استفاده از ابزارهای پیشرفته داده استفاده می شود.

ارزیابی

یافته ها ارزیابی می شوند و با اهداف شرکت مقایسه می شوند تا مشخص شود که آیا آنها نیاز به استقرار در شرکت دارند.

گسترش

در مرحله آخر ، نتایج داده کاوی بین فعالیتهای تجاری روزانه به اشتراک گذاشته می شود. یک بستر اطلاعاتی تجاری می تواند برای ارائه یک منبع حقیقت واحد برای کشف داده های سرویس خود استفاده شود.

مزایای داده کاوی چیست

تصمیم گیری خودکار

داده کاوی به سازمانها اجازه می دهد تا بدون تأخیر ، داده ها را به طور مستمر تجزیه و تحلیل کنند و تصمیم گیری های مهم و معمول را به صورت خودکار انجام دهند. بانکها می توانند فوراً معاملات تقلب را تشخیص دهند ، درخواست تأیید کنند و حتی اطلاعات شخصی را نیز برای محافظت از مشتریان خود در مقابل سرقت هویت تضمین کنند. این مدل ها با استفاده از الگوریتم های عملیاتی یک سازمان می توانند داده ها را بطور مستقل جمع آوری ، تجزیه و تحلیل کنند تا تصمیم گیری را ساده تر و فرایندهای روزانه شرکت را بهبود بخشند.

پیش بینی های دقیق

برنامه ریزی یک فرایند مهم در هر تجارت است. داده کاوی برنامه ریزی را تسهیل می کند و براساس روند گذشته و شرایط فعلی پیش بینی های قابل قبولی را در اختیار مدیران قرار می دهد.

کاهش هزینه

داده کاوی امکان استفاده کارآمد و تخصیص منابع را فراهم می کند. مشاغل می توانند با پیش بینی های دقیق تصمیم گیری های خودکار را برنامه ریزی و اتخاذ کنند که منجر به حداکثر پس انداز هزینه خواهد شد.

اطلاعات مشتری

شرکت ها مدل های داده کاوی را از داده های مشتری برای کشف ویژگی ها و تفاوت های کلیدی در بین مشتریان خود مستقر می کنند. داده کاوی را می توان برای ایجاد personas و سفارشی کردن هر نقطه لمسی برای افزایش تجربه کلی مشتری استفاده کرد.

چالش های داده کاوی چیست

اگرچه یک فرآیند قدرتمند است ولی با افزایش مقدار و پیچیدگی داده های بزرگ ، داده کاوی مانع می شود.

داده های بزرگ

اولین چالش، داده های بزرگ متعدد هستند و بر همه زمینه های جمع آوری ، ذخیره و تجزیه و تحلیل داده ها تأثیر می گذارند. داده های بزرگ با چهار چالش مهم مشخص می شوند: حجم ، تنوع ، حقیقت و سرعت. هدف از داده کاوی پرداختن به این چالش ها و باز کردن ارزش داده ها است. این چالش ذخیره و پردازش حجم عظیمی از شرکتهای داده را جمع آوری می کند. این حجم عظیم از داده ها دو چالش اساسی را نشان می دهد: اول ، پیدا کردن داده های مناسب سخت تر است و دوم ، سرعت پردازش ابزارهای داده کاوی را کند می کند. انواع مختلفی از داده های جمع آوری و ذخیره شده را شامل می شود. ابزارهای داده کاوی باید مجهز باشند تا همزمان طیف گسترده ای از قالبهای داده را اداره کنند. عدم محوریت تجزیه و تحلیل بر روی داده های ساختاری و بدون ساختار مانع از ارزش افزوده داده کاوی می شود. سرعت، چالشی است که با افزایش سرعت تولید داده ها همراه است. سرانجام تشخیص می دهد که همه داده ها با دقت برابر نیستند. داده ها می توانند کثیف ، ناقص ، جمع آوری ضعیف و حتی مغرضانه باشند. در حقیقت ، هرچه داده ها سریعتر جمع آوری شوند ، خطاهای بیشتری رخ می دهد. چالش: صحت ، تعادل کمیت و کیفیت داده ها است.

مدلهای بیش از اندازه

تعدیل بیش از حد زمانی اتفاق می افتد که یک مدل به جای روندهای اساسی در جمعیت ، خطاهای طبیعی موجود در نمونه را توضیح دهد. مدل های بیش از حد مناسب، اغلب بسیار پیچیده هستند و بیش از متغیرهای مستقل برای تولید یک پیش بینی استفاده می کنند. در نتیجه با افزایش حجم و تنوع داده ها ، خطر تعدیل بیش از حد افزایش می یابد. متغیرهای بسیار کمی مدل را بی ربط می دانند در حالی که متغیرهای بیش از حد، بسیاری از مدل ها را به داده های نمونه شناخته شده محدود می کنند. چالش این است که تعداد متغیرهای مورد استفاده در مدلهای داده کاوی را تعدیل کرده و قدرت پیش بینی کننده آن را به طور دقیق متعادل کنید.

هزینه مقیاس

از آنجا که سرعت داده ها همچنان به افزایش حجم و تنوع داده ها ادامه می دهد ، سازمان ها باید این مدل ها را تغییر اندازه دهند و آنها را در سراسر سازمان بکار گیرند. برای بهره گیری کامل از داده کاوی با استفاده از این مدل ها ، سرمایه گذاری قابل توجهی در زیرساخت های محاسباتی و قدرت پردازش مورد نیاز است. برای دستیابی به مقیاس مورد نیاز ، سازمانها باید کامپیوترها ، سرورها و نرم افزارهای قدرتمندی را طراحی کنند که برای دستیابی به حجم و تنوع زیاد داده های سازمانی طراحی شده و نگهداری شوند.
از آنجا که سرعت داده ها همچنان به افزایش حجم و تنوع داده ها ادامه می دهد ، سازمان ها باید این مدل ها را تغییر اندازه دهند و آنها را در سراسر سازمان بکار گیرند. برای بهره گیری کامل از داده کاوی با استفاده از این مدل ها ، سرمایه گذاری قابل توجهی در زیرساخت های محاسباتی و قدرت پردازش مورد نیاز است. برای دستیابی به مقیاس مورد نیاز ، سازمانها باید کامپیوترها ، سرورها و نرم افزارهای قدرتمندی را طراحی کنند که برای دستیابی به حجم و تنوع زیاد داده های سازمانی طراحی شده و نگهداری شوند.

محرمانه بودن و امنیت

افزایش مورد نیاز ذخیره سازی داده ها بسیاری از مشاغل را مجبور کرده است که به محاسبات ابری و ذخیره سازی ابری روی آورند. اگرچه cloud پیشرفتهای مدرن در داده کاوی را امکان پذیر کرده است ، اما ماهیت این سرویس تهدیدهای مهمی را برای امنیت و حریم خصوصی ایجاد می کند. شرکت ها برای حفظ اعتماد شرکا و مشتریان باید از داده های خود در برابر شخصیت های مخرب محافظت کنند. حریم خصوصی داده ها به شرکتها نیاز دارد که قوانین و محدودیتهای داخلی را برای استفاده از
داده های مشتری تعریف کنند. داده کاوی ابزاری قدرتمند است که اطلاعات قانع کننده ای را در مورد مشتریان خود در اختیار شرکت ها قرار می دهد. با این حال ، این سؤال مطرح است: چه زمانی این اطلاعات بر حریم شخصی فرد تأثیر می گذارد؟ شرکت ها برای حفظ رابطه اعتماد باید این رابطه را با مشتریان خود تعادل برقرار کنند ، سیاست های مشتری پسند را توسعه دهند و آنها را ارتباط دهند.

انواع داده کاوی چیست؟


داده کاوی دو فرایند اصلی دارد: یادگیری نظارت شده و یادگیری بدون نظارت.

نظارت بر یادگیری

هدف از یادگیری نظارت شده پیش بینی یا طبقه بندی است. ساده ترین روش برای مفهوم سازی این فرایند ، جستجوی متغیر خروجی واحد است. اگر هدف از مدل پیش بینی ارزش یک مشاهدات باشد ، فرایندی یادگیری نظارت شده در نظر گرفته می شود.

مدلهای تحلیلی که معمولاً در روشهای داده کاوی تحت نظارت مورد استفاده قرار می گیرند عبارتند از:

رگرسیون خطی
رگرسیون خطی مقدار متغیر مداوم را با استفاده از یک یا چند ورودی مستقل پیش بینی می کند.
رگرسیون لجستیک
رگرسیون لجستیک با استفاده از یک یا چند ورودی مستقل ، احتمال متغیر اصلی را پیش بینی می کند.
سری های زمانی
مدل های سری زمانی ابزار پیش بینی کننده ای هستند که از زمان به عنوان متغیر مستقل اصلی استفاده می کنند.
طبقه بندی یا رگرسیون درختان
درختان طبقه بندی یک روش مدل سازی پیش بینی کننده برای پیش بینی ارزش متغیرهای هدفمند و مداوم هستند. بر اساس پایگاه داده ، مدل مجموعه ای از قوانین باینری را برای تقسیم و گروه بندی بیشترین نسبت متغیرهای هدف مشابه ایجاد می کند. با رعایت این قوانین ، گروهی که مشاهده جدید در آن سقوط می کند به ارزش پیش بینی شده آن تبدیل می شود.
شبکه های عصبی
شبکه عصبی یک مدل تحلیلی است که از ساختار مغز ، سلولهای عصبی آن و اتصالات آنها الهام گرفته شده است.
K  نزدیکترین همسایگان
روش k نزدیکترین همسایگان امکان طبقه بندی یک مشاهد جدید را بر اساس مشاهدات گذشته فراهم می کند. بر خلاف روش های قبلی ، روش نزدیکترین k توسط داده ها هدایت می شود نه مدل ها. این روش هیچ فرضیه ای راجع به داده ها ایجاد نمی کند و از فرآیندهای پیچیده برای تفسیر داده های آن استفاده نمی کند. ایده اصلی k نزدیکترین مدل همسایه این است که مشاهدات جدید را با شناسایی k نزدیکترین همسایگان خود و اختصاص آن به اکثریت ، طبقه بندی می کند.

روند در داده کاوی چیست

استاندارد سازی زبان

کاربران مشابه با نحوه تکامل SQL برای تبدیل شدن به زبان اصلی در پایگاه داده ، کاربران در حال شروع به تقاضای استاندارد سازی در داده کاوی هستند. این فشار به کاربران اجازه می دهد تا ضمن یادگیری یک زبان استاندارد واحد ، با بسیاری از سیستم عامل های داده کاوی به راحتی ارتباط برقرار کنند.

اکتشاف علمی

با موفقیت در دنیای تجارت ، داده کاوی از طریق تحقیقات علمی و دانشگاهی پیاده سازی می شود. روانشناسان هم اکنون برای پشتیبانی از تحقیقات خود از تجزیه و تحلیل ارتباط استفاده می کنند.

اشیاء داده های پیچیده

از آنجا که داده کاوی برای تأثیرگذاری بر سایر بخش ها و حوزه ها گسترش می یابد ، روشهای جدیدی برای تجزیه و تحلیل داده های فزاینده متنوع و پیچیده توسعه داده می شود. گوگل با یک ابزار جستجوی دیداری آزمایش کرده است که به کاربران امکان می دهد به جای متن ، از یک تصویر به عنوان ورودی جستجو کنند. ابزارهای داده کاوی نه تنها می توانند شامل متن و اعداد باشند بلکه باید بتوانند انواع مختلفی از داده های پیچیده را پردازش و تحلیل کنند.

افزایش سرعت محاسبه

با افزایش اندازه ، پیچیدگی و تنوع داده ها ، ابزارهای داده کاوی نیاز به کامپیوترهای سریعتر و روشهای کارآمدتری برای تجزیه و تحلیل داده ها دارند. هر مشاهده جدید چرخه محاسبه اضافی را به تجزیه و تحلیل اضافه می کند. با افزایش مقدار داده ها به صورت نمایی ، تعداد چرخه های مورد نیاز برای پردازش داده ها نیز افزایش می یابد. تکنیک های آماری ، مانند خوشه بندی ، به گونه ای طراحی شده اند که بتواند چند هزار مشاهده را با یک دوجین متغیر به طور موثر انجام دهد. با این حال ، با مشاغل جمع آوری میلیون ها مشاهده جدید با صدها متغیر ، محاسبات می تواند بسیار مدیریتی برای بسیاری از رایانه ها شود.

وب کاوی

با گسترش اینترنت ، کشف کسب و کارها و الگوهای استفاده برای کسب و کارها بسیار مفید است. مرور وب از همان تکنیک های داده کاوی استفاده می کند و آنها را مستقیماً در اینترنت اعمال می کند.
سه نوع اصلی جستجوی وب: جستجوی محتوا ، ساختار و استفاده است. بازرگانان آنلاین ، مانند آمازون  از جستجوی وب برای درک نحوه هدایت مشتریان در صفحات وب خود استفاده می کنند. این اطلاعات به آمازون اجازه می دهد تا پلت فرم خود را برای بهبود تجربه مشتری و افزایش خرید ، مجدداً بازسازی کند. گسترش محتوای وب ، کاتالیزوری است که موجب شده تا کنسرسیوم جهانی وب، استانداردهای مربوط به وب معنایی را معرفی کند. این یک روش استاندارد برای استفاده از فرمت های داده مشترک و تبادل پروتکل در وب فراهم می کند. این به اشتراک گذاری ، استفاده مجدد و استفاده از داده ها بین مناطق و سیستم ها کمک می کند. این استاندارد استخراج مقادیر زیادی از داده ها برای تجزیه و تحلیل را تسهیل می کند.
ممنون که تا پایان مارو همراهی کردید امیدواریم لذت برده باشید و با داده کاوی آشنا شده باشید.
  • ۹۸/۰۹/۱۳
  • مرضیه فتاحی

نظرات (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی