«О больших данных говорят все, хотя мало кто понимает, что это», – студент кафедры вычислительной техники Университета ИТМО, участник Science Slam Юрий Волков
Дать точное определение того, что такое Data Science, то есть наука о данных, очень сложно. Это наука, основанная на данных, которая изучает, как доставать полезные знания из этих данных. Но это определение должно включать в себя еще одно понятие – статистику. Определение статистики как науки в «Википедии» – это, по сути, перефразированное определение Data Science. В чем же тогда смысл? Получается, кто-то просто захотел хайпануть и придумал новое определение для старого термина?
На самом деле, Data Science и статистика – это слова, которые многие люди используют не по назначению. Дело в том, что, когда появляется какое-то модное новое слово, его пытаются вставить везде, где только можно. Например, я замечаю, что словосочетание Data Science часто используется в названии какой-нибудь конференции. Но я еще сто раз подумаю и проверю, а действительно ли там будет идти речь о Data Science или это ради привлечения внимания?
Чтобы понять, откуда взялась эта путаница между наукой о данных и статистикой, нужно копнуть глубже. Первые упоминания о Data Science появились еще в 1970-е, когда производительность компьютеров стала расти и возникла возможность и необходимость совместить новые вычислительные возможности и статистику. В конце 1990-х вышла научная статья, в которой автор говорил, что статистика и Data Science – это одно и то же. В 2012 году гарвардский журнал назвал специалиста по Data Science самой сексуальной профессией в мире. Кроме того, известный статистик Найт Сильвер, который в 2012 году предсказал итоги президентских выборов во всех 50 штатах США, назвал Data Science пустышкой и оскорблением для статистики.
![](/news_plugs/6.png)
Но важно подчеркнуть, что специалист по Data Science не может не уважать статистику. Кроме того, хороший специалист должен не только разбираться в статистике, но и в программировании, а также в продукте, который он исследует. Если человек, который подает резюме на должность в области Data Science, не знает, что такое теорема Байеса, то ему нечего делать в этой науке, пусть лучше идет в инженерный отдел. Если он не знает программирования, ситуация та же. Представьте, если бы вы делали запрос в Google, а какой-нибудь человек шел в архив, анализировал там документы и через пару дней выдавал вам ответ? И конечно, нужно знать предметную область, в которой вы работаете. Потому что нельзя одинаково работать с GoogleMaps и данными о продажах в баре.
Чтобы понять, что такое Data Science, нужно понимать, что такое машинное обучение. Это раздел программирования, который изучает методы построения алгоритмов, способных обучаться. То есть это методика создания программ, которые в дальнейшем смогут сами совершенствоваться. Например, принимая во внимание ваш возраст, пол, доход, программист может написать алгоритм, который предскажет, какой напиток вы закажите в баре. С помощью машинного обучения мы можем делать предсказания, рассчитывать определенные вероятности, упорядочивать документы, что важно в поисковиках, выстраивать классификации и так далее.
Например, нам нужно предсказать уровень популярности смайлика в виде котика на определенный период времени в какой-либо социальной сети. Как это можно сделать? Сначала мы исследуем те данные, которые у нас уже есть, то есть данные о популярности котиков в прошлый период времени. А затем высчитываем функцию, которая подойдет под эти данные, и пишем соответствующий алгоритм. То есть машинное обучение – это подгонка данных, которые у вас уже есть. Это всегда подгонка, потому что вывести реальные предсказания невозможно, они зависят от слишком большого количества факторов.
![Юрий Волков](/news_plugs/4.png)
Кому важна Data Science? Конечно же, банкам. Ни один банк не даст вам кредит, предварительно не проанализировав, а можете ли вы его погасить. Для этого оцениваются данные о вашем трудовом стаже, семейном положении, возрасте и многом другом. Можно использовать науку о данных и для других целей, например, предсказывать рейтинги фильмов. Я проводил такой анализ и выяснил много интересных вещей, например, что фильм будут смотреть меньше, если на его постере много людей. Странно, но это так. Я проверил свой алгоритм на фильме «Изгой-один. Звездные войны: истории», предсказал, что фильм получит рейтинг 8.18, фильм получил 7.9. Пользоваться таким алгоритмам можно, чтобы, например, киношники могли заранее предугадать, будет ли популярна лента с определенными параметрами (подробнее про алгоритм предсказывания рейтингов фильмов можно прочитать в материале ITMO.NEWS). Также я попробовал предсказать, какую оценку получу по лабораторной на основе оценок за лабораторные прошлых курсов. На основе этой работы я выяснил полезную вещь: что для подготовки к экзамену мне не нужно повторять вторую лабораторную, а вот третью нужно проштудировать от и до. Так и оказалось. Конечно, для разных областей применения требуются алгоритмы Data Science разной сложности. Потому что в медицине, например, цена ошибки несравнимо высокая.
«Рассматривайте мемы как фольклорные произведения», – лингвист Санкт-Петербургского государственного университета Александра Русакович
Мемы – это довольно сложная область изучения, как раз из-за того, что Ричард Докинз, который ввел понятие «мем» в массы, немного всех напутал. Он называл мемы единицами культурной информации, которые могут мутировать, проходить естественный отбор, собираться в группы. Созданная им «наука» меметика не получила научного статуса. Интернет-мемы имеют мало общего с тем, чем занимался Докинз. Мемы в Интернет-пространстве – это информационный объект, спонтанно приобретающий популярность.
![](/news_plugs/4.png)
Мем проще всего узнать по его свойствам: он смешной, актуальный, вирусный и часто абсурдный. Но это только минимально необходимые характеристики. Определить четкие границы мема невозможно так же, как и определить границы различных направлений в поэзии. Чаще всего вы знаете, что это мем, просто когда видите его. У мема есть свой срок жизни. Сначала его кто-то использует, изобретает, затем это подхватывают другие пользователи сети, мем достигает пика популярности и постепенно «умирает». Хотя мем может сохраниться и войти в плоскость языка.
Какую форму могут принимать мемы? Это могут быть слова, иконки, песни, посты или даже статьи в Интернете. В мемах приветствуется игра слов, культ ошибки и личные обращения. Почему пользователям нравится использовать дурацкие слова или нарушать правила построения речи? Согласно теориям, Интернет-коммуникации имеют общие черты с карнавальной жизнью Средневековья. Виртуальное общение создает виртуальную личность человека, которая действует по правилам игры. Он не общается в сети по работе, он может там отдохнуть и поиграть, использовать различные методы, чтобы обратить на себя внимание. Виртуальная языковая личность редко переносится в реальную жизнь и становится очень креативной в Интернете.
![Александра Русакович](/news_plugs/8.png)
Слова-мемы типа «ЛОЛ» очень хорошо запоминаются, потому что с точки зрения нейрофизиологии все, что кажется нам ярким, очень тупым или раздражающим вызывает эмоции, а эмоции помогают лучше что-то запомнить. Так, взрослые запоминают идиотские слова на более долгое время, чем школьники, потому что для взрослых они более идиотские, чем для школьников.
Самое интересное в изучении мемов для лингвистов – это создание новых языков. Например, почему на мемах животные говорят каким-то странным языком, отличным от нормального русского? Оказалось, что дело в том, как мы сами общаемся с животными. Когда мы разговариваем с ребенком, мы стараемся четко проговаривать слова, чтобы он быстрее научился говорить. С животными в этом необходимости нет, поэтому мы общаемся с ними неполными фразами, обрывками слов и, соответственно, в нашем представлении они должны отвечать так же. То есть примерно так, как могли бы люди, которые начали учить язык, но что-то там недоучили и поэтому общаются простыми лингвистическими формами.
Какие бывают мемы? Очень популярны мемы-нарративы. Это изображения, слова, какой-то контекст, но его особенность в том, что он неполный, и пользователю нужно допридумать прошлое для ситуации, которая показана в меме. Например, очень известный мем – это человек в болоте. И можно напридумать сколько угодно вариантов, почему он там оказался. Например, часто дописывают что-то вроде «Когда я начал убираться», «Когда я готовлюсь к экзамену по физике». То есть в таких мемах присутствие новой надписи обязательно.
Странный вид мема – это мем, основанный на копировании стилистики какой-либо Интернет-статьи. Например, очень популярной стилистической формой стал пост Павла Дурова «Семь вещей, от которых я отказался много лет назад». Многие пользователи стали копировать эту форму, делать свои списки, использовать ту же грамматику и так далее. Такие мемы появляются из-за того, что Интернет-коммуникации все больше усложняются.
![](/news_plugs/5.png)
Еще один необычный вид мема – это сложные приколы. То есть это мемы, которые понятны только определенному кругу лиц, например, филологам. Обычно их можно встретить в специализированных пабликах. Кстати, именно из-за наличия таких мемов возник другой мем, фраза «Слишком сложно, до свидания».
Сегодня существует такое явление как коммуникация только с помощью мемов. Заметьте: часто в сети начинаются какие-то дебаты в форме нормальной переписки, а заканчиваются тем, что люди постят гифку или какой-то мем. Есть даже люди, которые общаются только мемами и гордятся, что могут это делать. И это искусство. Это как с английским: в языке есть так называемый порог выживаемости, то есть количество слов, которое нужно знать, чтобы не упасть в грязь лицом в любой ситуации. Для английского это около двух тысяч слов. То же самое может быть с мемами: если вы ориентируетесь, например, в полутора тысячах мемов, то можете общаться только с их помощью, по крайней мере, в сети. Поэтому я считаю, что нужно рассматривать мемы как фольклорные произведения.