آمار و علم داده
همه شنیده ایم که هال واریان گفته است که:
“Statistics is the next sexy job”
همچنین تیم اوریلی در کنفرانس 7 سال پیش Web 2.0 عنوان کرد که:
“Data is the next Intel Inside”
سوال اینکه: چرا ناگهان همه علاقمند به آمار و داده شدهاند؟
برای پاسخ به این سوال نگاهی دقیق تر به تغییرات در دنیای امروز می اندازیم.
با پیشرفت خارق العاده تکنولوژی و تبدیل شدن اینترنت و وب به بخشی تفکیک ناپذیر از برنامه ها و استراتژی های تمامی دولت ها، سازمانها، کسب و کارهای بزرگ، متوسط و کوچک و حتی مردم عادی، هر تجارتی برای بقاء و پیشرفت و هر فردی برای استفاده بهینه از امکانات موجود، نیاز به استفاده از دنیای الکترونیک و اینترنت دارد. در این میان دنیای وب سرشار از اپلیکیشن ها و سایت های داده- محور است و در پس زمینه هر وب سایت و اپلیکیشنی، بانک های اطلاعاتی مختلفی قرار دارد که اطلاعات ذخیره شد در آن بانک های اطلاعاتی را میتوان با استفاده از آمار و علم داده (که خود تلفیقی از علم آمار و علوم کامپیوتر و علوم دیگر است)، تبدیل به ارزش کرد. به عبارتی دیگر علم آمار فقط استفاده از داده ها برای انجام تجزیه و تحلیل نیست، بلکه علم داده و در واقع فرایند تبدیل داده ها به ارزش (تولید محصول یا خدمات یا …) است که به صورت عمده در تصمیم گیری ها و حل مسائل، مورد استفاده قرار می گیرد.
با توجه به تحقیقات مختلف انجام شده در عصر حاضر، که عصر اطلاعات نام گذاری شده است، تمامی افراد در عالم تجارت در دنیایی از اطلاعات غرق شده و به دنبال کسب بینش و آگاهی از آن هستند. اما بر اساس نظر دانشمندان مختلف تنها راه نجات از این غرق شدن و در عین حال رسیدن به آن بینش و آگاهی، استفاده صحیح از علم آمار و علم داده است. علم آمار همواره با چالشها و حل مسائلی که در علوم مختلف یا صنعت به وجود آمدهاند، روبرو بوده است. در گذشته این مسائل در ابعاد کوچکی بود و بیشتر مربوط به آزمایش های انجام شده در زمینه کشاورزی و صنعت می شد، اما با پیشرفت ناگهانی و پرشتاب علوم کامپیوتر و ورود به عصر اطلاعات، مسائل از نظر پیچیدگی و اندازه به میزان بسیار زیادی بزرگ شدهاند. در این میان حجم وسیعی از اطلاعات توسط دولتها، سازمانها، شرکتها و … در زمینه های مختلف تولید می شود که وظیفه یک آماردان یا یک دانشمند داده (که به صورت تخصصی در شرکت های تحقیقاتی و آماری در دسترس هستند) این است که راهی علمی و صحیح برای استخراج الگوهای مهم و گرایشها و درک اینکه دادهها چه حقیقتی را در درون خود نهفته دارند، پیدا کند و نتایج حاصله را به پس از تحلیل، خلاصه بندی و تبدیل به زبان قابل استفاده برای مدیران، ارائه کند.
به عبارتی دیگر وظیفه ذاتی شرکت های تحقیقاتی و آماری استفاده از ابزارهای لازم (یادگیری آماری، یادگیری ماشین، داده کاوی، متن کاوی، وب کاوی، الگوریتم ها، سیستم های پیشنهاد دهنده و …) به منظور دستیابی به راه حل بهینه، منطقی و سریع د راستای پاسخ به مسئلهها و نیازهای خاص دولتها، سازمانها، کسب و کارها و …. می باشد.
بر اساس نظر محققان بزرگ در رشتههای غیر آماری، علم آمار و نگاه آماری ما باعث کمک به دیگران در درک بهتر جنبههای مختلف یادگیری است. به علاوه اینکه یادگیری آماری (Statistical Learning) منجر به تفسیر درست از واقعیت موجود، که توسط داده ها ارائه شده است، می شود.
اما نکته کلیدی این است که:
“There is no true interpretation of anything; interpretation is a vehicle in the service of human comprehension. The value of interpretation is in enabling others to fruitfully think about an idea.”
“یادگیری آماری” نقشی کلیدی در بسیاری از رشتههای علوم، مالی و صنعت دارد.
در اینجا با ذکر چند مثال به برخی کاربردهای یادگیری آماری می پردازیم:
- پیش بینی اینکه چه زمانی یک بیمار که به علت حمله قلبی در بیمارستان بستری است، دچار حمله قلبی دوم خواهد شد. این پیش بینی بر پایه اطلاعات جمعیت شناختی، رژیم غذایی و اندازههای کلینیکی بیمار می باشد.
- پیش بینی قیمت یک محصول در 6 ماه آینده بر پایه اندازه های استخراج شده از عملکرد شرکت و داده های اقتصادی.
- تعیین تعداد کدهای دست نوشته ای ZIP از روی عکس دیجیتالی.
- برآورد مقدار گلوکز در خون یک فرد مبتلا به دیابت با استفاده از طیف جذب مادون قرمز خون فرد.
- تعیین عوامل ریسکی برای سرطان خون بر اساس متغیرهای جمعیت شناختی و کلینیکی.
و ده ها موضوع تحقیقاتی دیگر که متناسب با نیاز روز هر سازمان، هر شرکت، هر کسب و کاری، هر تولید کننده یا ارائه دهنده خدمات، قابل تعریف اجرا و تحلیل می باشد.
و نهایت اینکه کلیه خدمات یک شرکت تحقیقاتی و آماری را میتوان به صورت زیر خلاصه کرد:
نگاه عمیق، روشنی راه، تصمیم درست
Deep Vision, Clarified Path, Right Decision
نظرات کاربران