Проект Инфраструктура научно-исследовательских данных (ИНИД) открыл новый режим доступа к датасетам из своего каталога — «Разработчикам ML». С августа любые компании и физические лица, занимающиеся разработкой сервисов на базе искусственного интеллекта, могут обучать модели на наборах данных, подготовленных совместно с органами власти.
Качественные данные играют ключевую роль в создании корректно работающих моделей машинного обучения. Если они искажены или не обладают достаточной полнотой, модели будут выдавать неверный результат, который может привести к серьёзным последствиям — например, ошибочному распознаванию объектов или даже дискриминации людей по расовой принадлежности или гендеру.
Особый интерес всегда представляют датасеты от государственных органов. Задача проекта ИНИД — стать посредником между исследователями и владельцами больших данных о государстве и обществе. Для этого уже создана специальная платформа, на которой ранее были опубликованы два очень редких и ценных набора данных о рынке труда в России в период пандемии («Регистрируемая безработица в России: обезличенные микроданные о характеристиках граждан и полученных услугах за 2017-2021 гг.» и «Сведения об обращениях граждан за пособием по безработице») .
На данный момент во вновь созданном режиме доступа «Разработчикам ML » в каталоге ИНИД опубликованы четыре новых датасета. Два — от ФНС России и Росстата. Это «Цены и объёмы реализации продуктовых товаров и ГСМ в субъектах РФ (по данным ККТ)» и «Средние цены и демографические показатели по Российской Федерации и её субъектам» соответственно. По словам создателей, такие данные будут полезны для обучения моделей машинного обучения и исследований потребительской, экономической и демографической динамики в России.
Ещё два набора — от Росгидромета с метеорологическими и гидрологическими характеристиками реки Лены и её притоков, подготовленные специально для проведения хакатона Emergency DataHack МЧС России. В наборах собраны наблюдения с метеостанций и гидропостов более чем за 35 лет — с 1985 года. Данные помогут проверить различные гипотезы в области географии, метеорологии, гидрологии, экологии и соответствующим образом натренировать модели машинного обучения.
В новом режиме доступ осуществляется через специальный сервер с графическим интерфейсом, на котором установлены нужные для анализа и разработки инструменты (виртуальное рабочее место, ВРМ). Подключиться можно с личного компьютера через удаленный рабочий стол. Виртуальное рабочее место открывается на два месяца, а далее потребуется делать запрос на продление.
Помимо прочего разработчики также получают доступ к восьмиядерному процессору, 96 гигабайтам оперативной памяти, процессору GPU Intel Broadwell, видеокарте Tesla V100 и двум террабайтам памяти на жёстком диске. Кроме того, процедура работы через ВРМ в режиме «Разработчикам ML» даёт возможность загрузки для проведения анализа данных самого разработчика, а также выгрузки на свой компьютер результатов работы в виде программного кода.
Работать с данными ИНИД можно и в режиме открытого доступа, скачивая их к себе на локальный компьютер; в продвинутом режиме — с меньшими, чем у разработчиков, возможностями; и даже в оффлайне через автоматизированное рабочее место исследователя без возможности выгружать исходные данные.
В любом случае всем специалистам по машинному обучению стоит помнить — идеальных датасетов не существует. Так, недавно исследователи из MIT показали, что многие популярные наборы данных содержат систематические ошибки. В среднем каждый из них содержит 3,4 процента неверно размеченных данных.
IQ
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!