فیلوجامعه‌شناسی

۳۶ نکته در معرفی «داده‌شناسی‌ها»/ Data Science

پنجشنبه, 20 آبان 1395 ساعت 10:08 مدیر سایت شمارگان بازدید از منبع : 2050

برداشت از مجموعه منابع؛ فقط ایده‌ای برای تأمل بیشتر

▬نکته ۱.    داده‌شناسی (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است. داده‌شناسی از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده است. تعدادی از این حوزه‌ها عبارت‌اند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و... هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.
▬نکته ۲.    عبارت داده‌شناسی بیش از یک دهه است که موجودیت دارد. ویلیام کلیولند اولین کسی است که اصطلاح داده‌شناسی را در سال ۲۰۰۱ مطرح کرده است. وی در مقاله «داده‌شناسی: برنامه‌ای برای گسترش جنبه‌های فنی در رشته آمار» پیشنهاد کرد که داده‌شناسی به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و داده‌کاوی می‌دانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روش‌های کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنا بر این، تلفیق این دو گروه می‌تواند منجر به نوآوری‌های زیادی شود. دپارتمان‌های داده‌شناسی باید اساتیدی داشته باشد که بتوانند دانش داده‌ها را با دانش محاسبات تلفیق کنند.
▬نکته ۳.    با این که عبارت داده‌شناسی عبارت جدیدی است، این حرفه سال‌هاست که وجود داشته است. ناپلئون بناپارت از مدل‌های ریاضی برای تصمیم‌گیری در میادین جنگی استفاده می‌کرده است. این مدل‌ها را ریاضیدانان تهیه می‌کردند.
▬نکته ۴.    آقایان تامس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «داده‌شناسی: جذاب‌ترین شغل قرن بیست و یکم» داده‌شناسان را این طور تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سؤال‌های کسب‌وکار را پیدا کرد. استنتون در سال ۲۰۱۳ داده‌شناسی را این طور تعریف می‌کند: داده‌شناسی رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. دریسکول در سال ۲۰۱۴ داده‌شناسی را این طور تعریف می‌کند: داده‌شناسی مهندسی عمران داده‌هاست. داده‌شناس دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه، درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.
▬نکته ۵.    در طول دهه گذشته، حجم داده‌های تولید شده توسط شرکت‌های مختلف بسیار قابل توجه بوده است که گاهی اوقات از آن به عنوان Big Data یاد می‌شود، اما، این داده‌ها زمانی ارزشمند خواهند بود که بتوان آن‌ها را تحلیل کرده و از دل آن‌ها آمار و ارقامی به دست آوریم که با استفاده از آن‌ها بتوان به شناخت بیشتر بازار، رفتارهای کاربران اینترنتی، علائق مردم و … دست یابیم. در این مقاله با وبلاگ سکان آکادمی همراه باشید تا بیشتر و بهتر با مفهوم Data Science آشنا شوید.
▬نکته ۶.    یک «داده‌شناس»، دائماً می‌بایست بپرسد چرا؟ یک تحلیلگر داده بسته به شرکتی که در آن کار می‌کند وظایف مختلفی می‌تواند داشته باشد، اما، به طور کلی، تحلیلگر داده کسی که دارای خصوصیاتی مثل تحلیل داده‌ها، مدل سازی/آمار و مهندسی/نمونه‌سازی باشد. در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک تحلیلگر داده است که از آن به عنوان مرتب‌سازی داده‌ها یاد می‌شود که به طور خلاصه منظور از مرتب‌سازی داده این است که تحلیلگر بتواند لیستی از داده‌های به هم ریخته را ابتدا مرتب و منظم نموده، سپس، به بررسی آن‌ها بپردازد. در ادامه قصد داریم تا تک تک این وظایف را به صورت موردی بررسی نماییم: مرتب‌سازی داده: همان طور که پیش از این، گفتیم، فرایند مرتب‌سازی داده شامل ترتیب دادن فرمت داده‌هایی است که در نگاه اول فرد را سردرگم می‌کنند. لذا، تحلیلگر می‌بایست ابتدا داده‌ها را به گونه‌ای مرتب سازد که آن پس، بتواند به سادگی به بررسی و تحلیل آن‌ها بپردازد. برای روشن‌تر شدن این مسأله مثالی می‌زنیم. فرض کنیم که قرار است داده‌های مرتبط با کاربرانی که در ایران به دنبال آموزش آنلاین هستند را مورد ارزیابی قرار دهیم، اما، مشکل این‌جا است که داده‌ها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یک سو و هم‌چنین، نوع آموزش مد نظر از سوی دیگر، فایل‌هایی مجزایی داریم. فرایند مرتب‌سازی داده‌ها در مثال فوق به این شکل است که ابتدا می‌بایست تمامی داده‌ها را در یک فایل قرار دهیم، اما، نکته این‌جا است که حتماً می‌بایست اطمینان حاصل کنیم کلیه ردیف‌ها و ستون‌های فایل (به طور مثال فایل اکسل) جایگاه خود را حفظ کرده و در این مثال هیچ داده‌ای به اشتباه در ستون دیگری قرار نمی‌گیرد.
▬نکته ۷.    به شاغلین در حوزه‌ی داده‌شناسی، «داده‌شناس» (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به طور عمومی مطرح کنند، از آن استفاده شده است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژه‌ی داده‌شناس استفاده کرد. داده‌شناسان با عمیق شدن در چندین رشته‌ی علمی، مسائل پیچیده‌ی مطرح شده در حوزه‌ی داده را حل می‌کنند. به طور کلی، انتظار می‌رود که داده‌شناسان قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک داده‌شناس می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای داده‌شناس شدن ۵ تا ۸ سال زمان لازم است.
▬نکته ۸.    داده‌شناسان می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارت‌ها به شرح زیرند:
•    توان استخراج و تفسیر منابع داده
•    مدیریت حجم زیاد اطلاعات با سخت‌افزار
•    محدودیت‌های نرم‌افزاری و پهنای باند
•    ادغام منابع داده با یک دیگر
•    تضمین پایداری مجموعه‌های داده
•    مصورسازی داده برای فهم آن
•    ساخت مدل‌های ریاضی با استفاده از داده
•    به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام

▀█▄ تحلیل داده‌ها
▬نکته ۹.    وقتی پای تحلیل داده‌ها به میان می‌آید، بسیاری از ما به یاد نرم‌افزار اکسل شرکت مایکروسافت می‌افتیم، اما، واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرم افزارهایی از این دست پاسخگوی نیاز ما نخواهند بود، بلکه سیستم‌های سخت افزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاها ما به چندین سیستم قوی نیاز داریم. در فرایند تحلیل داده‌ها، کارشناسان تمام سعی خود را به کار می‌بندند تا داده‌ها را از قالب جدول به صورت بصری درآورند تا به صورت ملموس‌تری بتوان به بررسی آن‌ها پرداخت. برای درک بهتر این موضوع، مثالی از شبکه اجتماعی فیسبوک می‌زنیم. تحلیلگران داده‌ها در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک، این تضمین را ایجاد خواهد کرد که این کاربر حضوری مستمر در این شبکه اجتماعی داشته باشد، لذا، مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحت‌تر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه، به عنوان کاربران پایه ثابت فیسبوک مبدل شوند. مدل سازی/آمار: پس از آن‌که داده‌های اولیه مرتب شدند، سپس، به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیش‌بینی آینده از روی آمار و ارقام به دست آمده و مدل‌سازی می‌رسد که در عین حال، کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت می‌بایست مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایت‌ها بتواند پیش‌بینی تعداد ویزیتورهای آتی این سایت‌ها نیز در اختیار وب مسترهای قرار دهد.

▀█▄ مهندسی/نمونه سازی
▬نکته ۱۰.    پس از برخورداری از یک مدل/طرح خوب از داده‌های به دست آمده، تازه به اصل کار می‌رسیم که همان عملی ساخت طرح است. در مورد قبلی سایت الکسا را مثال زدیم و گفتیم که چقدر خوب می‌شد اگر می‌توانستیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم، اما، برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داده و در اختیار وب مسترها قرار داد. به عبارت دیگر، می‌بایست داده‌های علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و … ندارند هم بتوانند آن داده‌ها را درک کرده و در زندگی حرفه‌ای خود به کار گیرند.

▀█▄ ابزارهای متن باز داده‌شناسی
•    آر (زبان برنامه‌نویسی)
•    پیتون (زبان برنامه‌نویسی)
•    وکا (یادگیری ماشینی)
•    جاوا (زبان برنامه‌نویسی)
•    گنو آکتیو
•    جولیا

▀█▄ ابزارهای تجاری داده‌شناسی
•    SPSS
•    MATLAB

▀█▄ رشته‌های دانشگاهی
•    انفورماتیک (رشته دانشگاهی)
•    بیوانفورماتیک
•    ژئوانفورماتیک
•    انفورماتیک پزشکی
•    علوم اعصاب محاسباتی
•    شیمی‌انفورماتیک

▀▄█▌▀▄█▌▀▄█▌ در همین ارتباط: داده‌کاوی
▬نکته ۱۱.    داده‌کاوی (به انگلیسی: Data Mining) به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ است. بسیاری از مردم داده کاوی را مترادف واژه‌های رایج کشف دانش از داده‌ها (KDD) می‌دانند. داده‌کاوی پایگاه‌ها و مجموعه‌های حجیم داده‌ها را در پی کشف و استخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمه‌ماشینی) قرار می‌دهد. این گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.
▬نکته ۱۲.    در سال ۱۹۶۰ آماردانان اصطلاح «Data Fishing» یا «Data Dredging"به معنای «صید داده» را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده‌ها بدون در نظر گرفتن هیچ‌گونه پیش فرضی به کار بردند. بعد از سی سال و با انباشته شدن داده‌ها در پایگاه داده اصطلاح داده کاوی در حدود سال ۱۹۹۰ رواج بیشتری یافت. اصطلاحات دیگری نظیر «Data Archaeology"یا «Information Harvesting» یا «Information Discovery» یا"Knowledge Extraction» نیز به کار رفته‌اند.

▀█▄ مقدمه
▬نکته ۱۳.    بسیاری از شرکت‌ها و مؤسسات دارای حجم انبوهی از اطلاعات هستند. تکنیک‌های داده‌کاوی به طور تاریخی به گونه‌ای گسترش یافته‌اند که به سادگی می‌توان آن‌ها را بر ابزارهای نرم‌افزاری و... امروزی تطبیق داده و از اطلاعات جمع‌آوری شده بهترین بهره را برد.
▬نکته ۱۴.    در صورتی که سیستم‌های داده‌کاوی بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانک‌های اطلاعاتی بزرگ فراهم باشد، می‌توان به سؤالاتی از قبیل: کدام‌یک از مشتریان ممکن است خریدار کدام‌یک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.

▀█▄ ویژگی‌ها
▬نکته ۱۵.    یکی از ویژگی‌های کلیدی در بسیاری از ابتکارات مربوط به تأمین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرائم، ارزیابی میزان ریسک و فروش محصولات به کار می‌رود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده‌هاست. داده کاوی غالباً در زمینه تأمین امنیت ملی به منزله ابزاری برای شناسایی فعالیت‌های افراد خرابکار شامل جابه جایی پول و ارتباطات بین آن‌ها و هم‌چنین، شناسایی و ردگیری خود آن‌ها با بررسی سوابق مربوط به مهاجرت و مسافرت‌هاست.
▬نکته ۱۶.    داده کاوی پیشرفت قابل ملاحظه‌ای را در نوع ابزارهای تحلیل موجود نشان می‌دهد، اما، محدودیت‌هایی نیز دارد. یکی از این محدودیت‌ها این است که با وجود این‌که به آشکارسازی الگوها و روابط کمک می‌کند، اما، اطلاعاتی را درباره ارزش یا میزان اهمیت آن‌ها به دست نمی‌دهد. دومین محدودیت آن این است که با وجود توان شناسایی روابط بین رفتارها یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره‌گیری از کارشناسان فنی و تحلیل گران کار آزموده‌ای است که از توان کافی برای طبقه‌بندی تحلیل‌ها و تغییر آن‌ها برخوردار هستند.
▬نکته ۱۷.    بهره‌برداری از داده کاوی در دو بخش دولتی و بخش خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازاریابی آن را عموماً برای کاهش هزینه‌ها، ارتقاء کیفی پژوهش‌ها و بالاتر بردن میزان فروش به کار می‌برند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرائم بوده است، اما، امروزه، دامنه بهره‌برداری از آن گسترش روزافزونی یافته و سنجش و بهینه‌سازی برنامه‌ها را نیز در بر می‌گیرد. بررسی برخی از برنامه‌های کاربردی مربوط به داده کاوی که برای تأمین امنیت ملی به کار می‌روند، نشان‌دهنده رشد قابل ملاحظه‌ای در رابطه با کمیت و دامنه داده‌هایی است که باید تجزیه و تحلیل شوند.
▬نکته ۱۸.    توانایی‌های فنی در داده کاوی از اهمیت ویژه‌ای برخوردار‌اند، اما، عوامل دیگری نیز مانند نحوه پیاده‌سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت داده‌هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرم‌افزار داده کاوی با بانک‌های اطلاعاتی است که از سوی شرکت‌های متفاوتی عرضه می‌شوند. عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره‌برداری از داده‌ها به منظوری است که در ابتدا با این نیت گرد آوری نشده‌اند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت.
▬نکته ۱۹.    اصولاً به پرسش‌های زیر در زمینه داده کاوی باید پاسخ داده شود:
•    سازمان‌های دولتی تا چه حدی مجاز به بهره‌برداری از داده‌ها هستند؟
•    آیا از داده‌ها در چارچوبی غیر متعارف بهره‌برداری می‌شود؟
•    کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟
▬نکته ۲۰.    کاوش در داده‌ها بخشی بزرگ از سامانه‌های هوشمند است. سامانه‌های هوشمند زیر شاخه‌ایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینه‌ای‌ست در هوش مصنوعی.
▬نکته ۲۱.    فرایند گروه گروه کردن مجموعه‌ای از اشیاء فیزیکی یا مجرد به صورت طبقه‌هایی از اشیاء مشابه هم را خوشه‌بندی می‌نامیم.
▬نکته ۲۲.    با توجه به اندازه‌های گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعه‌های داده‌ها مقیاس‌پذیری الگوریتم‌های به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در داده‌ها است.
▬نکته ۲۳.    کاوش‌های ماشینی در متون حالتی خاص از زمینه‌ی عمومی‌تر کاوش در داده‌ها بوده، و به آن دسته از کاوش‌ها اطلاق می‌شود که در آن‌ها داده‌های مورد مطالعه از جنس متون نوشته شده به زبان‌های طبیعی انسانی باشد.

▀█▄ چیستی داده کاوی
▬نکته ۲۴.    داده کاوی به بهره‌گیری از ابزارهای تجزیه و تحلیل داده‌ها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بوده‌اند اطلاق می‌شود. این ابزارها ممکن است مدل‌های آماری، الگوریتم‌های ریاضی و روش‌های یاد گیرنده (Machine Learning Methods) باشند که کار این خود را به صورت خودکار و بر اساس تجربه‌ای که از طریق شبکه‌های عصبی (Neural Networks) یا درخت‌های تصمیم‌گیری (Decision Trees) به دست می‌آورند بهبود می‌بخشد. داده کاوی منحصر به گردآوری و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل می‌شود برنامه‌های کاربردی که با بررسی فایل‌های متن یا چند رسانه‌ای به کاوش داده‌ها می‌پردازند پارامترهای گوناگونی را در نظر می‌گیرد که عبارت‌اند از:
•    قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً، خرید قلم به خرید کاغذ.
•    ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً، تولد یک نوزاد و خرید پوشک.
•    پیش بینی (Prediction): در پیش بینی هدف پیش بینی یک متغیر پیوسته می‌باشد. مانند پیش بینی نرخ ارز یا هزینه‌های درمانی.
•    رده‌بندی یا طبقه‌بندی (Classification): فرایندی برای پیدا کردن مدلی است که رده‌های موجود در داده‌ها را تعریف می‌نماید و متمایز می‌کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آن‌ها (متغیر هدف) ناشناخته می‌باشد، استفاده نمود. در حقیقت، در رده‌بندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روش‌های مورد استفاده در پیش بینی و رده‌بندی عموماً یکسان هستند.
•    خوشه‌بندی (Clustering): گروه‌بندی مجموعه‌ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه‌های دیگر داشته باشند.
•    مصورسازی (visualization): مصورسازی داده‌ها یکی از قدرتمندترین و جذاب‌ترین روش‌های اکتشاف در داده‌ها می‌باشد.
▬نکته ۲۵.    برنامه‌های کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار می‌روند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانک‌های اطلاعاتی یافت می‌شود و از ابزارهای تجزیه و تحلیل آماری برخوردارند، اما، برنامه‌های مربوط به داده کاوی در عین برخورداری از این قابلیت‌ها از نظر نوع با آن‌ها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل داده‌ها روشی بر پایه راستی آزمایی (verifiction) را به کار می‌برند که در آن فرضیه‌ای بسط داده شده آن‌گاه، داده‌ها برای تأیید یا رد آن بررسی می‌شوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارائه فرضیه‌های متنوع و هم‌چنین، ساختار برنامه به کار رفته بستگی دارد. در مقابل، در داده کاوی روش‌هایی برای کشف روابط به کار برده می‌شوند و به کمک الگوریتم‌هایی روابط چند بعدی بین داده‌ها تشخیص داده شده و آن‌هایی که یکتا (unique) یا رایج هستند شناسایی می‌شوند. به طور مثال در یک فروشگاه سخت‌افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آن‌ها با فروشگاه رابطه‌ای برقرار شود.
▬نکته ۲۶.    در نتیجه، قابلیت‌های پیچیده‌اش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحله‌ای در روند کشف دانش در پایگاه داده‌ها می‌دانند (KDD). مراحل دیگری در روند KDD به صورت تصاعدی شامل، پاک‌سازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش می‌باشد. بسیاری از پیشرفت‌ها در تکنولوژی و فرایندهای تجاری بر رشد علاقه‌مندی به داده کاوی در بخش‌های خصوصی و عمومی سهمی داشته‌اند. بعضی از این تغییرات شامل:
•    رشد شبکه‌های کامپیوتری که در ارتباط برقرار کردن پایگاه‌ها داده مورد استفاده قرار می‌گیرند.
•    توسعه افزایش تکنیک‌هایی بر پایه جست و جو مثل شبکه‌های عصبی و الگوریتم‌های پیشرفته.
•    گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع داده‌های متمرکز شده را از روی دسک تاپ می‌دهد.
•    و افزایش توان به تلفیق داده از منابع غیر متجانس به یک منبع قابل جست و جو می‌باشد.
▬نکته ۲۷.    علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال گذشته افزایش سریع جمع‌آوری و نگه داری حجم اطلاعات وجود داشته است. با پیشنهادهای برخی از ناظران مبنی بر آن‌که کمیت داده‌های دنیا به طور تخمینی هر ساله دو برابر می‌گردد. در همین زمان هزینه ذخیره‌سازی داده‌ها به طور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده است. مطابقا قدرت محاسبه‌ها در هر ۱۸ – ۲۴ ماه به دو برابر ارتقاء پیدا کرده است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده است. سازمان‌ها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با این‌همه ازدیاد داده کاوی به طبع بعضی از پیاده‌سازی و پیامد اشتباه را هم دارد. این‌ها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توان کار گروهی پایگاه‌های داده و نرم‌افزارها بین ارگان‌ها و تخطی‌های بالقوه به حریم شخصی می‌باشد. هم‌چنین، ملاحظاتی در مورد محدودیت‌هایی در داده کاوی در ارگان‌ها که کارشان تأثیر بر امنیت دارد، نادیده گرفته می‌شود.

▀█▄ محدودیت‌های داده کاوی
▬نکته ۲۸.    در حالی که محصولات داده کاوی ابزارهای قدرتمندی می‌باشند، اما، در نوع کاربردی کافی نیستند. برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه، محدودیت‌های داده کاوی مربوط به داده اولیه یا افراد است تا این‌که مربوط به تکنولوژی باشد.
▬نکته ۲۹.    اگر چه {داده کاوی} به الگوهای مشخص و روابط آن‌ها کمک می‌کند، اما، برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند. تصمیماتی از این قبیل بر عهده خود کاربر است. برای نمونه، در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریست‌های شناخته شده، آزمایش شود. با این‌همه در حالی که ممکن است اطلاعات شخص به طور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.
▬نکته ۳۰.    تشخیص رابطه بین رفتارها یا متغیرها یکی دیگر از محدودیت‌های داده کاوی می‌باشد که لزوماً روابط اتفاقی را تشخیص نمی‌دهد. برای مثال، برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیت هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت، رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تأثیر بگذارد.

▀█▄ ابزارهای داده کاوی
•    معروف‌ترین ابزارهای داده‌کاوی به ترتیب پرطرفدار بودن
•    آر (زبان برنامه‌نویسی)
•    پیتون (زبان برنامه‌نویسی)
•    Clementine که نسخه ۱۳ آن با نام SPSS Modeler نامیده می‌شود.
•    نرم‌افزار وکا
•    MATLAB

▀█▄ برنامه‌های کاربردی و نرم‌افزارهای داده کاوی متن-باز رایگان
•    Carrot۲: پلتفرمی برای خوشه‌بندی متن و نتایج جست و جو
•    Chemicalize. org: یک کاوشگر ساختمان شیمیایی و موتور جست و جوی وب
•    ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشه‌ای پیشرفته و روش‌های تشخیص داده‌های خارج از محدوده که به زبان جاوا نوشته شده است.
•    GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.
•    برنامه‌های کاربردی و نرم‌افزارهای داده کاوی تجاری
•    Angoss KnowledgeSTUDIO: ابزار داده کاوی تولید شده توسط Angoss.
•    BIRT Analytics: ابزار داده کاوی بصری و تحلیل پیش بینی گر تولید شده توسط Actuate Corporation.
•    Clarabridge: راه حل تحلیلگر کلاس متن.
•    (E-NI(e-mining, e-monitor: ابزار داده کاوی مبتنی بر الگوهای موقتی.
•    IBM SPSS Modeler: نرم‌افزار داده کاوی تولید شده توسط IBM
•    Microsoft Analysis Services: نرم‌افزار داده کاوی تولید شده توسط مایکروسافت
•    Oracle Data Mining: نرم‌افزار داده کاوی تولید شده توسط شرکت اوراکل

▀▄█▌▀▄█▌▀▄█▌ در همین ارتباط: متن‌کاوی
▬نکته ۳۱.    متن‌کاوی، به داده‌کاوی‌ای که بر روی متن انجام شود اشاره دارد. هم‌چنین، به عنوان آنالیز متن نیز شناخته می‌شود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است. اطلاعات پر کیفیت، به طور معمول از فهم الگوها و گرایش‌ها از طریق معانی و به وسیله یادگیری الگوهای آماری حاصل می‌شود. متن کاوی معمولاً، درگیر در فرایند ساختاردهی به ورودی‌های متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگی‌ها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام می‌گیرد)، استخراج الگوهای درون داده‌های ساختار یافته، و در نهایت ارزیابی و تفسیر خروجی‌ها است. «پر کیفیت» در متن کاوی معمولاً، به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دسته‌بندی متون، خوشه‌بندی متون، استخراج معنی و مفهوم، تولید رده‌بندی دانه‌ای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدل‌سازی ارتباط موجودیت‌ها است. (به طور مثال یادگیری ارتباط بین موجودیت‌ها)
▬نکته ۳۲.    آنالیز متن درگیر در بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس لغات، شناخت الگو، برچسب گذاری/حاشیه نویسی، استخراج اطلاعات، تکنیک‌های داده کاوی شامل آنالیز اتصال و ارتباط، بصری‌سازی، و آنالیز پیش‌گویانه است. هدف نهایی، اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبان‌های طبیعی و متدهای تحلیلی است.
▬نکته ۳۳.    یک کاربرد معمول، جهت اسکن مجموعه‌ای از اسناد نوشته شده در یک زبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاس‌بندی پیش‌گویانه یا پر کردن یک پایگاه داده یا ایندکس جست و جو با اطلاعات استخراج شده است.

▀█▄ متن کاوی در مقابل، آنالیز متن
▬نکته ۳۴.    اصطلاح آنالیز متن یک مجموعه از تکنیک‌های زبانشناسی، آمار و یادگیری ماشینی را توضیح می‌دهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسب و کار، آنالیز اکتشافی داده، تحقیق‌ها یا سرمایه‌گذاری ساختار داده و مدل می‌کند. این اصطلاح تقریباً، مترادف متن کاوی است. اصطلاح آنالیز متن بیشتر در کسب‌وکار مورد استفاده قرار می‌گیرد در حالی که متن کاوی حوزه کاربرهای قدیمی‌تر بویژه تحقیق‌ها علوم وابسته به زندگی و هوشمند سازی دولت‌ها استفاده می‌شود.
▬نکته ۳۵.    اصطلاح آنالیز متن هم‌چنان شرح می‌دهد که کاربرد آنالیز متن برای پاسخ به مشکل‌های کسب و کار، چه وابسته یا مستقل از پرس و جو و آنالیزهای میدانی و داده‌های عددی باشد. واضح است که ۸۰ درصد از اطلاعات وابسته به کسب و کار در شکلی بدون ساختار و متنی است. این تکنیک‌ها و فرایندها دانشی – حقایق، قواعد کسب و کار و ارتباطات – را کشف و ارائه می‌نمایند که در غیر این صورت در ساختاری متنی، غیرقابل نفوذ برای فرایندهای خودکار باقی مانده بودند.

▀█▄ فرایند متن کاوی
•    بازیابی اطلاعات یا شناسایی یک پیکره متنی، گام مقدماتی است: جمع‌آوری یا شناختن یک مجموعه از موارد متنی، بر روی وب یا نگه داشته شده روی فایل‌های سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی، برای آنالیز.
•    اگر چه برخی سیستم‌های آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا می‌نمایند، بسیاری دیگر پردازش زبان‌های طبیعی را بسیار گسترده‌تر اجرا می‌نمایند، مثل برچسب زنی اجزای کلام، تجزیه‌کننده نحوی یا دیگر انواع آنالیز زبانی.
•    Named entity recognition از تکنیک‌های آماری جهت شناختن نام‌ها استفاده می‌کند: مردم، سازمان‌ها، نام مکان‌ها، اختصارهای خاص و غیره. ابهام زدایی – با استفاده از راهنماهای متنی –ممکن است نیاز شود برای آن‌که تعیین گردد کلمه «Ford» می‌تواند به یک رئیس جمهور سابق امریکا، یک کارخانه خودروسازی، یک ستاره سینما، یک رودخانه یا موجودیتی دیگر ارجاع داشته باشد.
•    تشخیص الگوی تعیین شده موجودیت: ویژگی‌هایی مانند شماره تلفن، آدرس ایمیل، مقادیر (همراه با واحد) می‌توانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.
•    Coreference: شناسایی گروه اسمی و دیگر اصطلاح‌هایی که به یک شیء یکسان ارجاع دارند.
•    استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیت‌ها و دیگر اطلاعات درون متن.
•    آنالیز نیت، درگیر در فهم ذهنی (نه حقیقی) اجزاء و استخراج فرم‌های مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. تکنیک‌های آنالیز متن در آنالیز کردن نیت و مقصود موجودیت‌ها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمک‌کننده هستند.
مآخذ:...
هو العلیم