10گام رسیدن به علوم داده

علم داده چیست؟

من حدود دو سال است که در زمینه‌ی علم داده فعالیت می‌کنم. در اینجا برخی از نظراتم درباره‌ی اینکه علم داده چیست را ارائه می‌دهم هم‌چنین می‌توانیم از پاسخ به این سوال شروع کنیم که علم داده به چه چیزهایی گفته نمی‌شود.

اولا علم داده یک کار مهندسی نرم‌افزار نیست و این یعنی که علم داده مربوط به تولید محصول و  یا ویژگی‌های محصول یا هر چیز مطلوب دیگر نیست.

دوما علم داده یک کار تجسمی نیست. ایجاد یک تصور مناسب نه شروع کار و نه هدف نهایی یک دانشمند علم داده است. و نیازی به گفتن نیست که علم داده تولید اینفوگرافیک‌های موثر نیست.

سوما، علم داده یک کار علمی نیست. به ویژه دانشمندان علم داده، در محیط آکادمیک کار نمی‌کنند و این علم نیاز مخصوص صنعت و بازارهای تجاری است. دانشمندان علم داده معمولا مقاله چاپ نمی‌کنند و هم‌چنین چاپ مقاله و کتاب دغدغه‌ی کاری هیچ یک دانشمندان علم داده نیست.

آخرین مورد، من با این نظر عمومی که علم داده در بیشتر اوقات، آمار است مخالفم. بهتر است داستان کوتاهی از خودم نقل کنم. زمانی از من خواسته شد که یک نفر را برای کمک در کارهایم استخدام کنم و در این راستا با افراد زیادی از طریق تلفن مصاحبه کردم. بسیاری از متقاضیان از حیطه‌های تحلیل آماری می‌آمدند و بیشتر ان‌ها تمایل داشتند که بسیار با اعتماد به نفس به نظر برسند که بیشتر از آنچه که نیاز است برای این شغل مناسب هستند. اگرچه من با هیچ یک از آن‌ها بعدا تماس نگرفتم، چیزی که من در ان زمان متوجه شدم این بود که دانش اماری به تنهایی نمی‌تواند یک نفر را برای همکاری موثر با من زمینه‌ای که در علم داده فعالیت دارم، به دلایلی که در ادامه ذکر می‌کنم، آماده کند.

حالا ما اماده هستیم تا در مورد اینکه علم داده چیست صحبت کنیم. علم داده جمع کاملی از مهارت‌های برنامه‌نویسی، دانش اماری،برخی تکنیک‌های تصویرسازی و مورد آخر مقدار زیادی شم تجاری می‌باشد. شم تجاری‌ای که من به ویژه به ان اهمیت می‌دهم، تمایل به ترجمه‌ی هر سوال در زمینه‌ی تجارت به سوالی است که با داده‌هایی که یا موجود هستند یا در اینده در اختیار قرار می‌گیرند، قابل پاسخ دادن باشد. در حقیقت علم داده یک راه به خصوص را برای اتصال تمام نقاط در دنیای تصادفی پر از داده که بیشتر ان‌ها در وهله‌ی اول مفید به نظر نمی‌رسند، به‌کار می‌گیرد.

یک دانشمند در حوزه‌ی علم داده، براساس درک کنونی من، فردی است که بین جهان تجارت و جهان داده ارتباط برقرار می‌کند.

می‌خواهم در مورد تصور مشابهی که از علم داده در ذهن دارم برایتان صحبت کنم. فعالیت در حوزه‌ی علم داده مانند تهیه‌ی غذاست. این کار شامل داده‌کاوی که شامل ETL (استخراج، انتقال و بارگذاری) می‌شود اما به ان‌ها محدود نیست، تمیزکاری داده و رفع نقص داده‌ها و … می‌باشد. این مرحله مشابه مرحله‌ی اماده‌سازی غذاست که شما سبزی‌ها و گوشت را تمیز می‌کنید و مواد غذایی را به قطعات با سایز مناسب ریز می‌کنید و ان‌ها را کنار قرار می‌دهید. بعد از انجام این امور، شما اماده‌ی طبخ مواد غذایی هستید که این مرحله، مرحله‌ی نظیر جست‌و جوی داده‌ها، ساخت ویژگی‌ها و اجرای الگوریتم‌ها و … می‌باشد. این مرحله همان مرحله‌ی طبخ گوشت و سبزیجات طبق یک دستور مرحله به مرحله و طبق زمانبندیست و سپس باید مواد خام را که تبدل به غذای آماده‌ی سرو می‌شوند نظاره کنید. مرحله‌ی اخر سرو غذا است. وقتی که شما غذای طبخ شده را به صورت هنری تزیین می‌کنید و آن را به ترتیبی که سفارش داده شده سرو می‌کنید. این همان مرحله است که شما نتایج داده‌کاوی خود را در یک تصویرسازی هنری آماده می‌کنید و گزارش‌هایی تهیه می‌کنید تا برای کاربرانی که اینکار را سفارش داده بودند ارسال می‌کنید.

به طور خلاصه، فرایند علم داده شامل داده‌کاوی و ارائه‌ی نتایج قابل بکارگیری می‌باشد. براساس تجربه‌ی شخصی‌ام، مجموعه‌ی ابزاری که می‌توان به کمک ان تمام یا بخشی از این فرایند را انجام داد شامل Python، R، Tableau، SQL و … می‌باشد.

پایتون ( Python) به عنوان یک ابزار مفید برای تمام اهداف و به ویژه برای آماده‌سازی داده بکار  می‌رود. این نرم‌افزار به‌علاوه می‌تواند برای داده‌کاوی نیز استفاده شود (با کمک بسته‌ی اموزشی scitik-learn). علاوه براین پایتون می‌تواند برای انتقال اطلاعات مورد استفاده قرار گیرد چرا که امکانات رسم گراف در ان روز به روز در حال رشد است.

نرم افزار R در زمینه‌ی اماده‌سازی داده در مقایسه با Python اندکی ضعیف است. اما به‌خاطر طبیعتش که تمام مفاهیم آماری که با آن سروکار داریم را شامل می‌شود. این نرم‌افزار را تبدیل به یک نرم‌افزار عالی برای جست‌و‌جو در داده‌ها و  اجرای الگوریتم‌ها برای پارامترهای مختلف و تولید پیش‌الگو برای علم داده می‌کند. R هم‌چنین در تصویرسازی نیز بسیار قوی عمل می‌کند و می‌تواند یک فرایند تکراری داده‌کاوی را به یک گزارش درخشنده تبدیل کند.

صحبت از تصویرسازی داده‌ها است، Tableau یکی از بهترین نرم‌افزارهای تجاری برای جست‌و جوی تصویری داده‌هاست. این نرم‌افزار به علاوه برای تولید گزارش‌های تصویری واکنش‌پذیر نیز به کار می‌رود.

در کنار Python، R و Tableau یک نرم‌افزار دیگر در حوزه‌ی علم داده وجود دارد که تمایل دارم قبل از اتمام این پست به معرفی ان بپردازم. SQL در حوزه‌ی اماده‌سازی داده مانند زبان انگلیسی است.  این زبان برنامه‌نویسی در یکپارچه‌سازی منابع مختلف داده بسیار قدرتمند است و هم‌چنین در جست‌وجوی داده‌ها و عیب‌یابی ان‌ها بسیار مفید است.

امیدوارم که انچه گفته شد برای شما قابل درک باشد. من همچنان در حال اموزش هستم و در حال تعمیق بخشیدن به دانش خود در این زمینه می‌باشم.

نویسنده: Ji Li, data scientist

 

10 گام برای تبدیل شدن به یک دانشمند داده

 

 

1- مهارت خود را در جبر، علم آمار و یادگیری ماشین افزایش دهید.  یک دانشمند داده فردی باید باشد که در علم آمار بهتر از هر مهندس نرم افزار و همچنین یک مهندس نرم افزاری است که نسبت به هر متخصص آمار بهتر است. ایده مناسب این است که تعادل درست را در هر یک از این دو زمینه حفظ کنید. به عبارتی دیگر از اینکه تأکید بیش از اندازه بر روی هر یک از این دو زمینه، اجتناب شود

2- یاد بگیرید که کلان داده را دوست داشته باشید. 🙂 دانشمندان اطلاعات با حجم وسیعی از داده ها سروکار دارند که در آن محاسبات اغلب نمی توانند با استفاده از یک ماشین انجام شوند. اکثر آنها از نرم افزار/الگوریتم های مخصوص کلان-داده ها مانند Hadoop، MapReduce یا Spark برای دستیابی به پردازش توزیع شده استفاده می کنند. دوره های آنلاین زیادی وجود دارد که واقعا می تواند به شما در یادگیری کلان-داده کمک کند؛

3- دانش خود را در مورد بانک های اطلاعاتی ارتقاء دهید. با توجه به حجم زیادی داده ها که تقریبا هر دقیقه تولید می شود، اکثر صنایع از نرم افزار مدیریت پایگاه داده مانند MySQL یا Cassandra برای ذخیره و تجزیه و تحلیل داده ها استفاده می کنند. بینش خوبی از عملکرد DBMS مطمئنا راه زیادی برای حفظ کار رویایی شما به عنوان یک دانشمند داده خواهد شد.

4- کد نویسی کنید و زبان های برنامه نویسی مرتبط را یاد بگیرید. شما نمیتوانید یک دانشمند داده خوب باشید تا زمانی که نتوانید از طریق کدنویسی و زبان برنامه نویسی برای برقرار ارتباط با داده ها استفاده کنید. فرض کنید یک طبقه بندی مناسب و تحلیلی روی داده ها انجام شده باشد؛ اگر اسکریپت نویسی ندانید، نتیجه تحلیل همانند نقاشی روی دیوار است که توانایی تحلیل نتایج را نخواهید داشت؛ پس اگر نوشتن و درک اسکریپت ها مهارت داشته باشید، می توانید نتایج را تفسیر و درک کنید. یک کدنویس خوب ممکن است یک دانشمند بزرگ داده نباشد اما یک دانشمند بزرگ داده مطمئنا یک برنامه نویس خوب محسوب می شود

5- در پردازش، بصری سازی و نحوه گزارش گیری از داده ها ماهر باشید.

پردازش داده ها فرایند تبدیل فرمت خام داده ها به یک فرمتی است که برای مطالعه، تجزیه و تحلیل و بصری سازی مناسب باشد. بصری سازی داده ها و نحوه ارائه نتایج تحلیلی آن به مجموعه ای از مهارت های مهمّی نیاز دارد که دانشمند داده در هنگام تسهیل سازی تصمیمات مدیریتی و اداری با استفاده از تجزیه و تحلیل داده ها، به شدت به آن متکّی است.

6- روی پروژه های واقعیِ علم-داده کار کنید. صرفاً در دنیای تئوری های علم داده نباشید، بلکه شما زمانی تبدیل به یک دانشمند اطلاعات خوب می شوید، که آنرا به یک تجربه واقعی (پروژه علم داده) تبدیل کنید. در اینترنت برای پروژه های علم داده (Google quandl) جستجو کنید و زمان خود را برای ساخت قلعه خود سرمایه گذاری نمایید.

7- در همه جا به دنبال افزایش دانش خود باشید.

    یک دانشمند داده یک بازیگر تیم است و هنگامی که شما با یک گروه از افراد (مشابه زمینه کاری خود) همکاری می کنید، تماشای مشتاقانه همیشه به شما کمک می کند. یاد بگیرید برای ایجاد شهود بصری مورد نیاز در تحلیل داده ها و تفسیر نتایج آن به به عادات کاری افراد هم گروه خود توجه کنید و  آنچه که برای شما مناسب را ببینید، یاد بگیرید و استفاده کنید.

8- داشتن مهارت های ارتباطی

    مهارت های ارتباطی یک دانشمند-داده را از یک دانشمند-داده خوب متمایز می سازد. در اغلب موارد شما باید یافته های تحلیلی خود را به افرادی که مهم هستند ارائه دهید و آنها را از پشت درهای بسته رها کنید. توانایی استفاده از کلمات مناسب در موقعیت های غیر منتظره را داشته باشید.

9- رقابت

    وبسایت هایی مانند Kaggle یک زمین تمرین عالی برای دانشمندان داده هستند زیرا آنها سعی می کنند همکاران خود را پیدا کنند و با یکدیگر به رقابت بپردازند تا رویکردهای بصری خود را به نمایش بگذارند و مهارت هایشان را افزایش دهند. با افزایش اعتبار گواهینامه های ارائه شده توسط این سایت ها در صنعت، این مسابقات به سرعت در حال تبدیل شدن به یک مرحله برای نشان دادن میزان درگیری و شرکت داشتن ذهن نوآورانه آنها در اینگونه محیط های رقابتی است.

10 –  با انجمن های دانشمندان داده بروز بمانید

    وب سایت هایی مانند KDNuggets، Data Science 101 و DataTau را دنبال کنید تا با اتفاقات جهان علم داده همگام شوید و با انواع فرصت های شغلی که در حال حاضر در این زمینه ارائه می شوند، آشنا شوید

معرفی موارد کاربردی از علم داده در کسب و کارهای متعدد و صنایع

برخی از کاربردهای یادگیری ماشین و هوش مصنوعی را در این یاددشت بخوانید و بعد از آن فکر کنید که چرا امروزه ترس از کاربردهای هوش مصنوعی در زندگی بشر تضمین نشده است!

این یادداشت از زبان فردی است که در یک کنفرانس حضور داشته و به برداشت های خود از یک سخنرانی درباره آمازون پرداخته است…

سخنران طرفدار آمازون بود. او به همه چیز در مورد عملکرد شرکت آمازون علاقه داشت. از مدل کسب و کار، تکنولوژی های مورد استفاده در آن، نحوه رشد، استراتژی ای که برای مقابله با هر رقیب از طریق ارائه خدمات بهتر به مشتریان خود، دنبال می کند. اگر به آرم آمازون دقّت کنید، یک فلش یا نشانه را از A به سمت Z می بینید. این یعنی آمازون همه چیز را دارد و باید داشته باشد. آنها مالک بازار هستند، هر چیزی که فکر کنید، می توانید در آمازون بیابید. 

یکی از محصولات ویژه که آمازون با بکارگیری هوش مصنوعی ارائه کرد، اَلِکسا (Alexa) است. الکسا نسخه پیشرفته و مدرن محصولِ سیریِ اَپل  –  Apple’s Siri است. برای نمونه،  به یکی از کاربردهای آن در یخچال اشاره می کنم. این محصول می تواند یخچال شما را کنترل نماید و اگر شما قصد خرید نوشیدنی مورد علاقه خود را دارید، تنها کافیست با کلیک بر رویِ اَپ، سفارش خرید خود را در Amazon Go ثبت و در کمتر از یک ساعت آنرا در منزل دریافت کنید. علاوه بر آن می توانید روی تمامی مواد غذایی موجود در حافظه یخچال، برچسب های تاریخ انقضاء ثبت کنید تا یخچال آن تاریخ را به شما در روز مقرر شده، یادآوری نماید. علاوه بر آن می توانید دستورالعمل های غذایی مورد علاقه خود را جستجو نمایید، موسیقی درخواست کنید و سایر سفارشات مجاز را به سایت Amazon.com بفرستید.

کاربرد دیگر: الکسا دارای امکان «تشخیص صداست» –  voice recognition و می تواند به کودکان شما آموزش دهد. هنگامی که کودکان از الکسا خرید دونات درخواست می کنند، از طریق تشخیص صدای آنها می تواند پیشنهادی را که توسط والدین آنها در یخچال ثبت شده است را ارائه دهد؛ و با ارائه ای جذاب، سیب را به جای دونات به کودک پیشنهاد می دهد.

مواردی که بیان شد از کاربردهای هوش مصنوعی است. با با همکاری اخیر آمازون با مایکروسافت، نیز این کاربردها بیشتر خواهد شد. این دو شرکت قصد دارند سیستم های نورونی را با الگوریتم ها اضافه کنند تا «عامل تجربه» – experience factor را به این معادله اضافه کنند.

البته بعضی افراد معتقدند که علیرغم اثرات مثبتی که  هوش مصنوعی در جامعه به ارمغان می آورد، دارای اثرات منفی نیز هست، در واقع هوش مصنوعی بعضی از جنبه های انسانیِ فرآیند تولید را از بین می برد. دیدگاه فاجعه آمیز دیگری ادعا می کند که هوش مصنوعی قادر است انسان را به عنوان بخش های هوشمند ناچیزی از زندگی ببیند و حتی در شرایطی آنها را حذف می کند.

دیدگاه من نسبت به کسانی که هیجان دارند نزدیک است. درست همانند انقلاب صنعتی، هوش مصنوعی جامعه را تغییر خواهد داد و باعث می شود تا برخی از شغل های فعلی را تکامل و تغییر دهد

دیدگاهتان را بنویسید