«О больших данных говорят все, хотя мало кто понимает, что это», – студент кафедры вычислительной техники Университета ИТМО, участник Science Slam Юрий Волков
Дать точное определение того, что такое Data Science, то есть наука о данных, очень сложно. Это наука, основанная на данных, которая изучает, как доставать полезные знания из этих данных. Но это определение должно включать в себя еще одно понятие – статистику. Определение статистики как науки в «Википедии» – это, по сути, перефразированное определение Data Science. В чем же тогда смысл? Получается, кто-то просто захотел хайпануть и придумал новое определение для старого термина?
На самом деле, Data Science и статистика – это слова, которые многие люди используют не по назначению. Дело в том, что, когда появляется какое-то модное новое слово, его пытаются вставить везде, где только можно. Например, я замечаю, что словосочетание Data Science часто используется в названии какой-нибудь конференции. Но я еще сто раз подумаю и проверю, а действительно ли там будет идти речь о Data Science или это ради привлечения внимания?
Чтобы понять, откуда взялась эта путаница между наукой о данных и статистикой, нужно копнуть глубже. Первые упоминания о Data Science появились еще в 1970-е, когда производительность компьютеров стала расти и возникла возможность и необходимость совместить новые вычислительные возможности и статистику. В конце 1990-х вышла научная статья, в которой автор говорил, что статистика и Data Science – это одно и то же. В 2012 году гарвардский журнал назвал специалиста по Data Science самой сексуальной профессией в мире. Кроме того, известный статистик Найт Сильвер, который в 2012 году предсказал итоги президентских выборов во всех 50 штатах США, назвал Data Science пустышкой и оскорблением для статистики.
Но важно подчеркнуть, что специалист по Data Science не может не уважать статистику. Кроме того, хороший специалист должен не только разбираться в статистике, но и в программировании, а также в продукте, который он исследует. Если человек, который подает резюме на должность в области Data Science, не знает, что такое теорема Байеса, то ему нечего делать в этой науке, пусть лучше идет в инженерный отдел. Если он не знает программирования, ситуация та же. Представьте, если бы вы делали запрос в Google, а какой-нибудь человек шел в архив, анализировал там документы и через пару дней выдавал вам ответ? И конечно, нужно знать предметную область, в которой вы работаете. Потому что нельзя одинаково работать с GoogleMaps и данными о продажах в баре.
Чтобы понять, что такое Data Science, нужно понимать, что такое машинное обучение. Это раздел программирования, который изучает методы построения алгоритмов, способных обучаться. То есть это методика создания программ, которые в дальнейшем смогут сами совершенствоваться. Например, принимая во внимание ваш возраст, пол, доход, программист может написать алгоритм, который предскажет, какой напиток вы закажите в баре. С помощью машинного обучения мы можем делать предсказания, рассчитывать определенные вероятности, упорядочивать документы, что важно в поисковиках, выстраивать классификации и так далее.
Например, нам нужно предсказать уровень популярности смайлика в виде котика на определенный период времени в какой-либо социальной сети. Как это можно сделать? Сначала мы исследуем те данные, которые у нас уже есть, то есть данные о популярности котиков в прошлый период времени. А затем высчитываем функцию, которая подойдет под эти данные, и пишем соответствующий алгоритм. То есть машинное обучение – это подгонка данных, которые у вас уже есть. Это всегда подгонка, потому что вывести реальные предсказания невозможно, они зависят от слишком большого количества факторов.
Кому важна Data Science? Конечно же, банкам. Ни один банк не даст вам кредит, предварительно не проанализировав, а можете ли вы его погасить. Для этого оцениваются данные о вашем трудовом стаже, семейном положении, возрасте и многом другом. Можно использовать науку о данных и для других целей, например, предсказывать рейтинги фильмов. Я проводил такой анализ и выяснил много интересных вещей, например, что фильм будут смотреть меньше, если на его постере много людей. Странно, но это так. Я проверил свой алгоритм на фильме «Изгой-один. Звездные войны: истории», предсказал, что фильм получит рейтинг 8.18, фильм получил 7.9. Пользоваться таким алгоритмам можно, чтобы, например, киношники могли заранее предугадать, будет ли популярна лента с определенными параметрами (подробнее про алгоритм предсказывания рейтингов фильмов можно прочитать в материале ITMO.NEWS). Также я попробовал предсказать, какую оценку получу по лабораторной на основе оценок за лабораторные прошлых курсов. На основе этой работы я выяснил полезную вещь: что для подготовки к экзамену мне не нужно повторять вторую лабораторную, а вот третью нужно проштудировать от и до. Так и оказалось. Конечно, для разных областей применения требуются алгоритмы Data Science разной сложности. Потому что в медицине, например, цена ошибки несравнимо высокая.
«Рассматривайте мемы как фольклорные произведения», – лингвист Санкт-Петербургского государственного университета Александра Русакович
Мемы – это довольно сложная область изучения, как раз из-за того, что Ричард Докинз, который ввел понятие «мем» в массы, немного всех напутал. Он называл мемы единицами культурной информации, которые могут мутировать, проходить естественный отбор, собираться в группы. Созданная им «наука» меметика не получила научного статуса. Интернет-мемы имеют мало общего с тем, чем занимался Докинз. Мемы в Интернет-пространстве – это информационный объект, спонтанно приобретающий популярность.
Мем проще всего узнать по его свойствам: он смешной, актуальный, вирусный и часто абсурдный. Но это только минимально необходимые характеристики. Определить четкие границы мема невозможно так же, как и определить границы различных направлений в поэзии. Чаще всего вы знаете, что это мем, просто когда видите его. У мема есть свой срок жизни. Сначала его кто-то использует, изобретает, затем это подхватывают другие пользователи сети, мем достигает пика популярности и постепенно «умирает». Хотя мем может сохраниться и войти в плоскость языка.
Какую форму могут принимать мемы? Это могут быть слова, иконки, песни, посты или даже статьи в Интернете. В мемах приветствуется игра слов, культ ошибки и личные обращения. Почему пользователям нравится использовать дурацкие слова или нарушать правила построения речи? Согласно теориям, Интернет-коммуникации имеют общие черты с карнавальной жизнью Средневековья. Виртуальное общение создает виртуальную личность человека, которая действует по правилам игры. Он не общается в сети по работе, он может там отдохнуть и поиграть, использовать различные методы, чтобы обратить на себя внимание. Виртуальная языковая личность редко переносится в реальную жизнь и становится очень креативной в Интернете.
Слова-мемы типа «ЛОЛ» очень хорошо запоминаются, потому что с точки зрения нейрофизиологии все, что кажется нам ярким, очень тупым или раздражающим вызывает эмоции, а эмоции помогают лучше что-то запомнить. Так, взрослые запоминают идиотские слова на более долгое время, чем школьники, потому что для взрослых они более идиотские, чем для школьников.
Самое интересное в изучении мемов для лингвистов – это создание новых языков. Например, почему на мемах животные говорят каким-то странным языком, отличным от нормального русского? Оказалось, что дело в том, как мы сами общаемся с животными. Когда мы разговариваем с ребенком, мы стараемся четко проговаривать слова, чтобы он быстрее научился говорить. С животными в этом необходимости нет, поэтому мы общаемся с ними неполными фразами, обрывками слов и, соответственно, в нашем представлении они должны отвечать так же. То есть примерно так, как могли бы люди, которые начали учить язык, но что-то там недоучили и поэтому общаются простыми лингвистическими формами.
Какие бывают мемы? Очень популярны мемы-нарративы. Это изображения, слова, какой-то контекст, но его особенность в том, что он неполный, и пользователю нужно допридумать прошлое для ситуации, которая показана в меме. Например, очень известный мем – это человек в болоте. И можно напридумать сколько угодно вариантов, почему он там оказался. Например, часто дописывают что-то вроде «Когда я начал убираться», «Когда я готовлюсь к экзамену по физике». То есть в таких мемах присутствие новой надписи обязательно.
Странный вид мема – это мем, основанный на копировании стилистики какой-либо Интернет-статьи. Например, очень популярной стилистической формой стал пост Павла Дурова «Семь вещей, от которых я отказался много лет назад». Многие пользователи стали копировать эту форму, делать свои списки, использовать ту же грамматику и так далее. Такие мемы появляются из-за того, что Интернет-коммуникации все больше усложняются.
Еще один необычный вид мема – это сложные приколы. То есть это мемы, которые понятны только определенному кругу лиц, например, филологам. Обычно их можно встретить в специализированных пабликах. Кстати, именно из-за наличия таких мемов возник другой мем, фраза «Слишком сложно, до свидания».
Сегодня существует такое явление как коммуникация только с помощью мемов. Заметьте: часто в сети начинаются какие-то дебаты в форме нормальной переписки, а заканчиваются тем, что люди постят гифку или какой-то мем. Есть даже люди, которые общаются только мемами и гордятся, что могут это делать. И это искусство. Это как с английским: в языке есть так называемый порог выживаемости, то есть количество слов, которое нужно знать, чтобы не упасть в грязь лицом в любой ситуации. Для английского это около двух тысяч слов. То же самое может быть с мемами: если вы ориентируетесь, например, в полутора тысячах мемов, то можете общаться только с их помощью, по крайней мере, в сети. Поэтому я считаю, что нужно рассматривать мемы как фольклорные произведения.