При работе над проектом, основанным на данных, очень важно найти надежные и качественные массивы данных. К счастью, существует несколько бесплатных источников, предоставляющих доступ к широкому спектру наборов данных в различных областях.

Однако, пожалуйста, обращайте внимание на качество данных, документацию и лицензионные ограничения, связанные с каждым набором данных. В этой статье мы рассмотрим пять бесплатных источников наборов данных, которые вы можете использовать для своего следующего проекта.

Kaggle

Kaggle - популярная платформа для специалистов по исследованию данных и энтузиастов машинного обучения. Помимо проведения соревнований по машинному обучению, она предлагает огромный выбор наборов данных, находящихся в открытом доступе. Базы данных охватывают широкий круг вопросов, включая социальные науки, здравоохранение и финансы. Методология Kaggle, основанная на участии сообщества, гарантирует регулярное обновление и поддержку наборов данных.

Новая толстовка Kaggle прибыла как раз вовремя! @kaggle запустил очень интересный конкурс Large Language model, направленный на ответы на научные MCQ с использованием (Large) LM.

На этом я заканчиваю свой перерыв в Kaggle.

Это идеальная задача для всех, кто хочет ускорить процесс обучения! pic.Twitter.com/eMKeOnUBZ8

- Саньям Бхутани (@bhutanisanyam1) 16 июля 2023 г.

Репозиторий машинного обучения UCI

Репозиторий UCI Machine Learning Repository Калифорнийского университета в Ирвайне представляет собой обширную коллекцию наборов данных, часто используемых в сообществе специалистов по машинному обучению. В нем представлены наборы данных для различных типов задач, таких как классификация, регрессия и кластеризация. Каждый набор данных в репозитории имеет полное описание, список атрибутов и инструкции по предварительной обработке данных.

Поиск данных в Google

Поисковая система Google Dataset Search предназначена для помощи пользователям в поиске общедоступных наборов данных. Она индексирует огромный выбор наборов данных из различных источников, таких как правительственные сайты, научные организации и хранилища данных. При поиске наборов данных доступны поиск по ключевым словам, фильтры по типу файлов и лицензиям, соответствующие метаданные и ссылки на скачивание.

Команда разрабатывала систему обнаружения рака с помощью Tensorflow на #Megahack Hackathon. Запутавшись в наборах данных, я посоветовал им использовать Google Dataset Search. #TensorFlow@JeffDean @ialimustufa @ericsk @ksoonson @DynamicWebPaige pic.twitter.com/EKmeQshcc2

- Шубхам (@ishubhamsah) 29 января 2020 г.

Data.gov

Data.gov - официальный портал открытых данных правительства США. Он предоставляет доступ к огромной базе данных многочисленных федеральных агентств по самым разным темам, включая здравоохранение, экологию, образование, транспорт и многое другое. Наборы данных, предоставляемые Data.gov, часто используются для анализа, исследований и создания приложений, основанных на данных. Платформа способствует использованию государственных данных в благих целях и выступает за прозрачность.

OpenML

OpenML - это платформа, поощряющая сотрудничество и предлагающая разнообразные наборы данных и задачи машинного обучения. Пользователи могут сравнивать и воспроизводить эксперименты по машинному обучению, а также изучать, загружать и передавать наборы данных. OpenML способствует обмену наборами данных, кодом и результатами, подчеркивая важность воспроизводимости в исследованиях в области машинного обучения.

Источник