Насколько случайными должны быть наши результаты при информационном поиске
Пару лет назад мне подумалось, что скоро слово «серендипность» станет очень популярным. Было какое-то ощущение, что в самой идее кроется много ответов на те вопросы, которые пора бы начать себе задавать. В итоге я включил этот принцип в методику одного из проектируемых курсов, что вызвало сначала довольно большое непонимание и сопротивление у части преподавателей, зато в итоге показало себя хорошей технологией для проектирования массовых курсов с заходом в индивидуализацию обучения и дает хорошие результаты до сих пор (ну, или мне просто хочется в это верить).
Однако сегодня нужно признать, что предсказание мое не сбывается. Конечно, виной тому искусственный интеллект (который скоро будет во всем виноват, почему бы сейчас уже не начать так говорить), потому что из-за него все поверили в то, что рекомендации можно делать очень точно, обоснованно и полезно для пользователей, а без данных и без анализа лучше не делать ничего. Вот только всегда ли у пользователей есть потребность видеть обоснованные рекомендации? Не уверен. Поэтому попробую приложить некоторые усилия и показать такой мир, где правильной серендипности больше, а у тех, кто ищет, есть возможность столкнуться с неожиданным.
Вообще, «серендипность» — слово не самое благозвучное. И в русском, и в английском языке звучит как неродное, поэтому любить его сложно. Точно так же, как и сейчас принцип, этим словом обозначаемый, не кажется родным для рекомендательных сервисов, которые живут большими данными, машинным обучением и разными формами учета предпочтений пользователей. Что-то важное для нашего развития, полезное и даже, не побоюсь этого слова, судьбоносное, не возникает на наших горизонтах, не упоминается в наших методиках, потому что всем кажется, что случайностей лучше избегать, ведь они некалькулируемы. Но чего мы на самом деле избегаем?
Что же означает серендипность? Это ситуация, когда вы находите что-то ценное притом, что будто бы этого и не искали. Понятно, что это оксюморон. Если вы совсем не заинтересованы в чем-то, то вы просто этого не заметите, а если заметили — какой-то интерес уже присутствует. Если говорить о серендипности при информационном поиске, когда мы взаимодействуем с различными информационными системами, которые могут состоять из материальных объектов (книжные полки, каталоги в магазинах и библиотеках) или цифровых интерфейсов (сайты организаций, журналов или поисковики разного рода), то здесь все в каком-то смысле еще проще и понятнее. Серендипность в поиске — это когда вы попадаете в ситуации, когда вы будто бы случайно натыкаетесь на нужную вам информацию. Случайность — центральный момент. Когда алгоритм предлагает вам подборку источников на основе сопоставления ключевых слов, совпадения фраз или смыслов в аннотации, параллелей в элементах списка литературы, все это выглядит как случайность, но это хорошо спланированная случайность. И ею еще нужно научиться пользоваться.
Чтобы получше разобраться в ситуации, пришлось прочитать скорее публицистическую книжку «Неслучайная случайность: Как управлять удачей и что такое серендипность» Кристиана Буша. И хоть книжка мне показалась местами вполне задорной, она больше проясняет то, как нам нужно жить, чтобы чаще встречать полезное и радостное, чем то, как вся эта серендипность работает (особенно в поиске).
Для начала нужно проговорить следующее (почти символ веры): все мы верим в точный поиск, потребность работать только с проверенной, актуальной и относящейся к нашей теме информацией. Однако для развития, — если угодно, для вдохновения, — нам нужно обращаться к чему-то иному. Просто потому, что ответы не всегда находятся в центре нашего внимания. Иногда они прячутся на периферии, иногда в слепой зоне. Заметить, что мы не замечаем, можно только если смотреть куда-то не туда, куда мы привыкли смотреть, решая наши профессиональные задачи. И все эти особенности нашего мышления, нашей творческой деятельности вполне можно учитывать при обучении, в профессиональной деятельности. И во многом всё это даже учитывалось и учитывается. Или учитывалось, пока мы не начали думать о том, что нам нужна точность, и не начали выстаивать такие системы, где точность претендует на гегемонию.
Раньше мы получали информацию в более целостном виде. Что я имею в виду? Мы могли читать книгу целиком, потому что получить книгу не целиком было сложно. Мы просматривали выпуски журнала тоже целиком, потому что они в таком виде выдавались библиотеками или приходили нам лично по подписке. В итоге мы, с одной стороны, тратили время на то, что нам будто бы не нужно, с другой — получали какое-то целостное представление о состоянии нашей дисциплины. Теперь мы легко можем получить пару статей из сборника конференции. Про журнальные статьи и говорить не приходится: мало кто теперь может позволить себе читать журналы на бумаге. Да, иногда в библиотеке такое может случиться, однако мы давно и в периодике перешли на электронное комплектование, потому что это просто более оперативно и эффективно с точки зрения трудозатрат и вложения средств. Получается, что теперь у нас значительно меньше шансов узнать о том, что на конференции был сделан интересный доклад, если в нем не использовались термины, по которым мы ищем. И чем лучше мы будем учиться искать, чем качественнее будут рекомендации сервисов на основе нейросетей, тем уже будет наш исследовательский и экспертный фокус, тем одновременно и проще, и сложнее нам будет решать стоящие перед нами задачи. Проще, потому что мы уже получаем намного больше, даже слишком много, информации по нашим темам. Так много, что нам нужны сервисы даже не для отбора, а для чтения потока отобранных по строгим критериям материалов (см. например, Scholarcy, впрочем, есть множество других). Нам всем понятно, что если мы специалисты, то нам нужно следить за всеми публикациями по нашей теме. И это сложно. Но достаточно ли это, чтобы не растерять свой творческий исследовательский потенциал? Однозначного ответа, я полагаю, здесь нет: наши склонности могут сильно различаться. И если это так, то можно выстраивать такие системы и учить пользователей в них работать, чтобы полезно было всем.
Если вы принимаете установку, что в мире есть много неожиданно полезных вещей, на которые иногда стоит обращать внимание, то нужно найти такие пространства, где вы позволяете случаться этой самой случайности. Например, это может быть в вашем поисковике.
Вот так выглядит интерфейс, в котором можно найти документы, похожие на заинтересовавшие вас, в Неопоиске. Обратите внимание, что вы можете двигать бегунок влево и вправо и получать сильно различное количество результатов.
Однако если мы действительно беспокоимся о том, чтобы создавать условия для счастливых полезных находок, то лучше привыкнуть искать по похожим запросам в различных информационных средах. Начать с дискавери-сервиса выглядит вполне разумным: потому что можно понять, что есть на бумаге и что можно в подписке прочитать прямо сейчас. Если вы нашли несколько материалов в случайном журнале, то нужно идти на сайт журнала и изучать сайт. Почему не страницу журнала в РИНЦ, например (хотя я и там рекомендую посмотреть и поискать по новым для себя ключевым словам)? А потому что сайт журнала может отражать видение редакции намного больше. Да, теперь часто журналы издаются большими компаниями, для которых это бизнес. Но и там могут быть какие-то любопытные подборки, приглашения в тематические выпуски, приветственные слова редакторов, которые дают нам шанс случайно иначе посмотреть на тему.
Главное в нашем желании сохранить возможность случайных встреч — не запираться в одной технологии, одном сервисе и смотреть, как разные платформы реагируют на наши запросы. А потом следовать за своим любопытством на сайты журналов, серии сборников конференций, записей на видеохостингах. Да, мы будто бы это делаем, но возможно делать это лучше.