вторник, 15 августа 2017 г.

Размер пристатейной бибилиографии

Небольшой кейс наукометрического анализа.
Открываем InCites, аналитическую надстройку над данными Web of Science (требует наличия подписки). Смотрим в разделе Research Areas, для организации, в данном случае УрФУ за пять лет (2012–2016), список публикаций по категориям WoS которые дают больше всего публикаций. Почетное четвертое место занимает металлургия (~10% публикаций), которые цитируются в четыре раза хуже чем по миру, и только 40% из них были за этот период процитированы.


Может быть, это специфическая область, в которой работы цитируются медленней, чем в среднем по категории Metallurgy & Metallurgical Engineering? Загрузим в InCites референтные публикации, отобранные по тематике на основании цитирования, в рамках работы по разработке плана развития науки в УрФУ выполненного компанией Clarivate Analytics (ранее подразделение Thomson Reuters). Референтные публикации строились на основании публикаций УрФУ и УрО РАН по металлургии отобранных вручную учеными университета и институтов, за период 2003 по 2013, данные за последние четыре года не добавлялись.

За период 2003 по 2013, видим, что среднее число цитирований публикаций в области по миру в 2–3 раза выше, чем в УрФУ. Отдельно показаны публикации ИФМ УрО РАН, публикации РАН на графике сделаны только институтами УрО РАН по металлургии. Соотношение показателей лучше, чем по категории Metallurgy & Metallurgical Engineering, однако не кардинально лучше. 
Замечание по публикациям 2003 года, в референтные публикации за этот год попали только публикации УрФУ и институтов УрО РАН и те, которые в них цитировались за этот год.

Одна из гипотез почему такие низкие показатели по цитированию, была сформулирована на основании анализа данных по качеству пристатейной библиографии в 2011 году.
Один из факторов, определяющих низкие показатели цитирования, это низкое качество библиографии, те кому потенциально интересна опубликованная работа практически не имеют шансов найти ее в момент выхода на основании поиска по цитированию ключевых работ в области.
Может, мало цитируют, так как тематика публикаций малоинтересная? Вопрос интересный, и требует отдельного рассмотрения.
На пироге ниже, анализ библиографии статей (брался только тип article и 10% случайных статей от опубликованных), в журналах выполненных металлургами и химиками УрФУ за 2010 год, по сравнению со статьями, опубликованными в тех же журналах в тот же год, по данным Scopus. В среднем авторы приводили на ~20% ссылок меньше чем их коллеги по журналу. Треть ссылок базой не распознавалась и вела на русские публикации, часто на русскую версию публикации в переводном издании. И размер пристатейной библиографии у металлургов был от 4 до 12 со средним значением 6. Плюс половина ссылок была самоцитированием.


Посмотрим, что было в динамике и сравним с референтными публикациями.
Построенная в лоб картинка распределения числа публикаций по размеру библиографического списка ниже, учитывался только тип article. Анализ только по типу article исключает проблему длинных и коротких библиографических списков в обзорах и сообщениях.
Видим скошенное распределение, со смещенными средними и медианой, из-за длинного хвоста. Еще одной причиной отклонения распределения от нормального является раздувание размеров пристатейной библиографии (смотри следующую картину), на которую обратил мое внимание Иван Стерлигов. Большое спасибо за обсуждение и присланные ссылки.



Распределение среднего размера пристатейной библиографии по годам, приведено на графике ниже, для наглядности показаны значения УрФУ и институтов УрО РАН. Распределение по годам ближе к нормальным, и вычисления среднего осмысленно.



Посмотрим на достоверность различия размеров пристатейной библиографии за период, для красоты пририсуем «усики». Для наглядности сравнения взяты публикации из четырех дополнительных областей по материаловедению построенные за тот же период.


Предварительно можно рекомендовать ученым УрФУ и УрО РАН публикующимся в области металлургии обратить внимание на формирование пристатейной библиографии. 

Можно ли такой анализ сделать самостоятельно? Да можно, в выгрузках WoS размер пристатейной библиографии тоже доступен. Окрестность с референтными публикациями тоже можно построить либо оценить средние значения для нее.

Над чем можно поработать дальше? Можно сравнить процент распознавания источников и старость источников и проверить актуальность тематик. 
Об этом будут отдельные заметки.