НЕОПОИСК

Насколько ключевые для нас ключевые слова при поиске?

Никогда такого с поиском не было, и вот опять: отличие промтинга от поисковых запросов

Сейчас очень популярны рассказы о том, как промтинг изменит все. Это еще недавно незнакомое широкой публике слово теперь представляется панацеей от всех болезней, философским камнем и просто каким-то волшебным заклинанием. Промтинг — это одновременно и то, что должны делать правильно наши школьники и студенты, и профессия будущего, и решение для любой нашей информационной потребности.

Вообще, с профессиями будущего ощущается перебор, потому что как-то слишком быстро эти профессии меняются. Нечеткий образ будущего объясним: много неопределённости, а ещё все стремятся к своему светлому будущему, а там уже как повезет. Вот совсем недавно была пандемия, и всем стало ясно, что санитар в больнице — это тоже профессия будущего, потому что от них зависит очень многое. Но вот прошла пара лет, и профессия будущего снова связана с тем, во что вкладывают деньги ведущие цифровые корпорации. Позвольте не согласиться или, по крайней мере, настоять на том, что новые технологии не всегда заменяют собой старые. Да, GPT-сервисы научились выдавать информацию в удобной форме (уверен, что основные задачи по достоверности результатов будут решены), однако это же не говорит о том, что теперь только этим способом получения информации всем нужно пользоваться. В СССР в 1920-ые тоже была мечта о том, что коллективное хозяйство (в том числе, комбинаты питания) заменит индивидуальное, поскольку намного более экономически эффективно. Но этого не произошло. Учитывая количество подобных экспериментов по всему миру, списать неудачи трансформации быта и человечества на то, что коммунисты недостаточно старались, едва ли возможно.

В общем, мысль моя довольно проста: даже если что-то новое полезно, не факт, что все этим будут пользоваться, и тем более не факт, что всем только этим и нужно пользоваться. Но есть и еще один вопрос: насколько новый навык «промтинг»?

Если понимать его как навык правильного формулирования запроса в какой-то информационной среде, то новизна здесь в специфике информационной среды, а не в тонкостях формулировок. Проблема в том, что когда мы говорим о том, что есть поиск и есть нейросети, и нейросети заменят поиск (заметим, что мало ответственных людей такое заявляют), мы в слово «поиск» вкладываем слишком многое. И работу с электронным каталогом библиотеки, и поиск в дискавери-сервисах, и поиск в специализированных профессиональных базах академического и прикладного свойства, и попытку определить, сколько молока нужно для четырех порций блинов. А ведь все это разные виды поиска, которыми люди пользуются в различных ситуациях: цели разные, способы структурирования материала разные, способы презентации поисковой выдачи тоже будут очень сильно различаться. То есть под зонтичным понятием «поиск» скрывается очень много непохожих практик, которые нужны в образовании и исследованиях в разные этапы жизни студента или проекта.
Ты мои ключевые слова понимаешь?
В связи со всем этим говорить об «обычном» поиске полезно и сейчас. Да, нам нужно учитывать, что навыки поиска будут изменяться и благодаря тому, что у всех появляется навык промтинга. Тут еще нужно будет понять, как промтинг влияет на обычный поиск. Полагаю, что скоро мы по этому поводу начнем читать довольно интересные исследования, но до их появления можно больше обращать свое внимание на поведение наших студентов и читателей. Вопрос крайне любопытный.

Но если задуматься о том, что позволяет искать точнее, то есть одно совершенно очевидное наблюдение. И поиск, и промтинг выигрывают, если пользоваться точной терминологией. Да, для разных поисковых сред она должна быть разной. Впрочем, точность никогда лишней не будет. Чтобы быть точным, нужно следить за ключевыми словами.

Правильная формулировка запроса предполагает правильное понимание темы. Обычные поисковики стараются приблизиться к тому, чтобы брать запросы на обычном непрофессиональном языке и выдавать приемлемые результаты. Для каких-то учебных задач тактика вполне рабочая, но если рассматривать ее как стратегию для формирования качественного специалиста, то это провал.

Понимание терминологии и умение видеть различия между концептуализациями и отличающимися толкованиями одних и тех же терминов — условие (если не залог) качественного поиска. Особенно если цель — написать качественный обзор или просто досконально разобраться в вопросе. Просто чтение по верхам, которые всегда представляют собой публикации, привлекающие наибольшее внимание на данный момент, не самый безопасный ход. Нужна какая-то перепроверка себя. И ее можно делать довольно простыми средствами.

Как мы все знаем, исследователи стремятся использовать термины точно и единообразно. И поэтому понимание, в каком ряду находится то или иное ключевое слово, многое означает для материала: здесь многое можно понять и про само ключевое слово, и про текст, которому оно приписано.
Ключевые слова как способ описать точнее и поставить себя в нужный ряд или облако
Сейчас ключевые слова выполняют две функции.

Во-первых, они используются теми, кто ищет, чтобы ориентироваться в большом количестве документов. Учитывая, что большинство платформ по умолчанию предлагает поиск по набору полей, поиск только по ключевым словам дает более «чистые» и обозримые результаты.

Во-вторых, вытекающая из первой, но реже проговариваемая функция: авторы, которые понимают, что поиск по ключевым словам важен, часто ставят такие термины, которые поместят их материал в ряд со значимыми для них текстами. Это что-то вроде search engine optimisation для исследовательской работы. Если следовать рекомендациям для авторов статей, то выбирать ключевые слова нужно с большим тщанием. Сложно поспорить, ведь оказавшись в правильном ряду, можно рассчитывать на большее количество читателей.

Однако кроме простого поиска по ключевым словам, который, кажется, даже сложно рекомендовать, настолько это самоочевидно, можно пользоваться и более сложными инструментами — например, облаком ключевых слов. Полезно это будет не всем и не всегда, а в основном тем, кто решает серьезные задачи и ставит долгосрочные цели.

Любым инструментом нужно учиться пользоваться. Даже если сейчас вы сложными способами искать не собираетесь, то начинать уже пора. Сначала результаты могут не очень впечатлить, потому что неясно, на что обращать внимание, как на основе анализа облака/таблицы принимать решения об уточнении поиска. И ведь очень сложно дать универсальный ответ. Где-то нужно смотреть на самое частотное, где-то на странные термины, которые совсем не понятны. И на разных этапах исследования приоритеты могут смещаться. Но лучше начать работать с инструментом заранее, чтобы быть во всеоружии к тому волшебному моменту, когда начнется значимый проект.
Правильно наблюдаем за облаками
Но что можно делать с облаком ключевых слов? Как оно вообще формируется? Вы задаете какие-то параметры поиска, поисковые термины, и получаете результат. Вот перед вами список документов. У большинства этих документов есть ключевые слова. Если их сложить вместе и посчитать частотность для того массива документов, который вы анализируете, то вы получите облако или таблицу (обе формы презентации хороши — тут вопрос, кому с чем удобнее работать, но таблицу можно скачивать, а потом хранить и перепроверять).

И вот перед вами список, предположим, из ста понятий. Они могут быть не совсем «чистыми», поскольку есть проблемы считывания информации в сверстанных документах и неточностей внесения информации на онлайн-платформы, однако иногда «шум» и случайности даже полезны. Следует смотреть на контексты. Разные запросы дадут разные подборки слов. Различие подборок и есть самое познавательное.
Можно проделать такое упражнение.

Задайте разные поиски и посмотрите, чем отличается облако ключевых слов.
Если не хочется менять содержание запроса, то можно разграничить поиск по временным периодам. Тоже бывает довольно показательно, хотя тут нужно заходить с терминологии, которая устойчиво работает на всех периодах. Сработать может как случайное разделение (хоть на пятилетки, хоть по тематическим рубрикам, хоть по дисциплинам), так и какое-то осознанное решение, когда вы понимаете, что в какой-то момент научная парадигма меняется (а за ней и терминология).
Лучше всего анализ облака/таблицы ключевых слов работает, когда у вас сложный запрос, состоящий не менее чем из двух-трех терминов (больше — лучше, но это снижает серендипность результатов, хотя она не всегда нужна). Еще интереснее, когда вы исключаете какие-то термины и смотрите, что прибавляется и что убывает в облаке/таблице. Чем сложнее запрос, тем меньше результатов вы получаете — и тем проще будет просчитать и проанализировать то, почему вы получили конкретный результат.
Варианты заданий по анализу наборов ключевых слов для групп разной степени подготовки
Для обучения студентов или начинающих исследователей, которые, например, не так давно работают со своей темой или осваивают новые поисковые инструменты, задание может выглядеть так:

1. Вы даете им несколько качественных текстов и обсуждаете с ними, что такое ключевые слова, и как можно проверить точность ключевых слов, которые предлагают авторы, и тех, что мы можем выделить сами, анализируя текст.

Здесь важно показать, что далеко не всегда авторами выбираются точные и удачные ключевые слова, что стандартная терминология может выпадать как что-то очевидное из набора ключевых слов, а значит, тогда нужно будет комбинировать поиск с использованием ключевых слов с поиском по аннотациям.

2. После обсуждения ключевых слов в текстах (и приведения понимания в группе к какому-то общему знаменателю) можно дать задание на поиск.

Вначале сформировать облака/таблицы ключевых слов для запроса с теми словами, что в текстах из п. 1., с облаками на основе списка ключевых слов, уточненных во время обсуждения.
Рис. 1.
ОБЛАКО КЛЮЧЕВЫХ СЛОВ В ИНТЕРФЕЙСЕ НЕОПОИСКА
3. Потом нужно обсудить, что получилось. Как различаются самые частотные ключевые слова? Можно ли как-то объяснить различия в массивах полученных текстов и собранных по ним ключевым словам?

От ключевых слов нужно постоянно переходить к самим текстам, которые попадают в выдачу, чтобы показывать, что вы не просто решили проверить частоту использования терминологии, а подбираете тексты для дальнейшего чтения.
Рис. 2.
КЛЮЧЕВЫЕ СЛОВА ПРИ ПРОСТОМ ПОИСКЕ ПО ТЕРМИНУ "ЛЕГИТИМНОСТЬ" С СОРТИРОВКОЙ ПО ВЕСУ.
4. По итогам будет набор текстов, которые точно будут соответствовать теме и которые можно будет уложить в какой-то план для дальнейшей работы.
Для групп с развитыми навыками поиска и пониманием темы я бы сразу посоветовал искать по содержательным основаниям. Например, предположить, на какие содержательные блоки можно разбить литературу: до и после какого-то ключевого открытия/теории или тексты, написанные в рамках одной научной школы/подхода и другой.

Задание на поиск в данной ситуации может выглядеть так.

1. Сначала — поиск документов, чтобы сделать подборку, а потом — анализ этой подборки через облако/таблицу ключевых слов.
Рис. 3.
КЛЮЧЕВЫЕ СЛОВА В ВИДЕ ТАБЛИЦЫ С ВЕСАМИ (В ИНТЕРФЕЙСЕ LIBREOFFICE.ORG 24.8.1.2)
2. В каком-то смысле это даже проще, поскольку когда подборка сформирована осмысленно — по ней можно высказывать гипотезы. А если есть гипотезы, то их можно проверять через точные вопросы к текстам. Это делает дальнейшую аналитическую обработку текстов намного более содержательной.
Хороший поиск — это такой поиск, где вы не просто довольны тем, что нашли. А ещё и понимаете и способны объяснить, почему вы получили то, что получили, и что на основе полученной подборки документов можно утверждать.

В общем-то, если все так, то вы можете начинать делать систематический обзор литературы. Важно даже не то, что есть подборка, которую можно читать и анализировать. Дело в том, что даже на этом этапе документы уже будут просмотрены (по крайней мере для решения о том, в какой последовательности их читать), что должно косвенно сформировать и более ясное представление о том, как менялись значения искомых вами терминов.

Да, справочная литература дает понимание терминологии (и ясно, что вы с ней уже работали, прежде чем начать сложный поиск), но термины нестабильны. Серийное чтение литературы, уточнение отношений одного термина с другими очень хорошо помогает достичь более объемного понимания развития исследований.
Блог