Главная
Новости
Строительство
Ремонт
Дизайн и интерьер

















Яндекс.Метрика





Наука о данных

Наука о данных (англ. data science; иногда даталогия — datalogy) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Рассматривается как академическая дисциплина, а с начала 2010-х годов, во многом благодаря популяризации концепции «больших данных», — и как практическая межотраслевая сфера деятельности, притом специализация исследователя данных (англ. data scientist — «учёного по данным») с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий.

История

Началом формирования выделенной дисциплины считается 1966 год, когда был учреждён Комитет по данным для науки и техники (CODATA), а первое введение термина data science относится к книге Петера Наура 1974 года, в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний (существует мнение, что Наур употреблял термин «data science» ещё в конце 1960-х).

Однако, только в 1990-е годы термин, обозначающий дисциплину, получил широкое употребление, и только в начале 2000-х стал общепризнанным, прежде всего, благодаря статье статистика Bell Labs Уильяма Кливленда (по состоянию на 2012 год — профессор статистики в Университете Пердью), в которой он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы.

В 2002 году Комитетом по данным для науки и техники начат выпуск журнала CODATA Data Science Journal, содержащего в названии наименование дисциплины, а в январе 2003 года вышел первый номер The Journal of Data Science Колумбийского университета.

Очередной взлёт широкого интереса к науке о данных относится к появлению парадигмы «больших данных», которая фокусируется на новых технологических возможностях обработки данных больших объёмов и разнообразия, в том числе, за счёт применения методов, разрабатываемых в 2000-е годы в науке о данных. С 2011 года O’Reilly проводит серию крупных конференций по науке о данных — Strata, корпорация EMC начиная с 2011 года проводит ежегодной саммит по науке о данных. McKinsey в 2011 году спрогнозировал спрос в США на 440—490 тыс. новых специалистов с «глубокими аналитическими навыками по работе с большими данными» к 2018 году и дефицит в 50 % — 60 % в таких специалистах при сохранении образовательных трендов, в связи с этим прогнозом во многом был подогрет интерес к созданию учебных программ.

В 2012 году профессия data scientist неоднократно отмечается как одна из самых привлекательных (англ. sexy) и перспективных в современном мире, утверждается, что такие специалисты будут играть ключевую роль в организациях, за счёт возможностей получения конкурентных преимуществ благодаря анализу, быстрой обработке и извлечению закономерностей в данных, прежде всего, в технологических отраслях.

С 2013 учебного года Университет Данди, Оклендский университет, Университет Южной Калифорнии запустили магистерские программы по науке о данных, а бизнес-школа Имперского колледжа Лондона — программу подготовки «магистров наук по науке о данных и менеджменту» (англ. MSc Data Science & Management). В том же году Вашингтонский университет, Университет Калифорнии в Беркли и Нью-Йоркский университет получили грант в размере $37,8 млн на развитие науки о данных, в рамках которого в течение пяти лет должны будут, в том числе, выстроить учебные программы и создать возможности для академической карьеры в данной области.

Содержание

Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных, извлечение знаний из данных в обобщённой форме. Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна, на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта (англ. substantive expertise), практического опыта в информационных технологиях (hacking skills) и знания математической статистики.

В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления. В сравнении с классической статистикой, на методах которой во многом основывается и наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку. В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных, отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами).

Академические программы

В курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera, выделены следующие разделы:

  • модели данных: отношения, «ключ — значение», деревья, графы, изображения, тексты;
  • реляционная алгебра и параллельное выполнение запросов;
  • NoSQL-системы и хранилища «ключ-значение»;
  • компромиссы между SQL-, NoSQL- и NewSQL-системами;
  • проектирование алгоритмов для Hadoop (и для MapReduce в общем случае);
  • базовый статистический анализ: семплирование, регрессии;
  • введение в data mining: кластеризация, ассоциативные правила, деревья решений;
  • приложения: социальные сети, биоинформатика, анализ текста.

Блок науки о данных программы магистерской программы по «науке о данных и менеджменту» Имперского колледжа Лондона включает подготовительный курс «продвинутой статистики» (англ. advanced statistics). Непосредственно в курс по науке о данных входят следующие дисциплины:

  • машинное обучение;
  • системы управления базами данных;
  • инженерия программного обеспечения;
  • анализ данных (англ. intelligent data) и вероятностный вывод (англ. probabilistic inference), в описании дисциплины даются ссылки на байесовский вывод и алгоритмические методы моделирования, классификации и дискриминантного анализа данных на его основе;
  • вероятностные модели и продвинутая статистика.

После курсов по науке о данных и основам менеджмента в программе предусмотрен прикладной курс, разбитый на два потока, в финансово-технологический поток включены управление рисками, управление активами и производные финансовые инструменты, а в консалтинговый — обработка больших массивов данных (англ. large datasets), сетевой анализ, эконометрический анализ, приложения в сфере услуг и консалтинге, энергетике, здравоохранении, политике.

Программа Университета Данди делает упор на «большие данные», прежде всего, в противовес «табличной обработке», и фокусируется на интеллектуальном анализе данных, моделировании баз данных и хранилищ, статистике, в рамках программы изучаются языки SQL, MDX, R, Erlang, Java, инструменты Hadoop и NoSQL.