Nutch

Apache Nutch
Nutch.png
Тип библиотека Java[d] и библиотека функций
Разработчик Apache Software Foundation
Написана на Java
Операционная система Кроссплатформенное программное обеспечение
Аппаратная платформа Java Virtual Machine
Последняя версия
Состояние Активный
Лицензия Apache License 2
Сайт nutch.apache.org

Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, Tika, Hadoop и Gora, адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.

Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД.

Использование

На базе Nutch 2.0, запущенного поверх 34-узлового Hadoop-кластера, построен поисковый сервис компании Kalooga, в индексе которого находится более миллиарда страниц[2].

На основе Nutch построены поисковые системы:

  • Creative Commons Search — запущен в 2004 году, имплементация Nutch заменена в 2006[3][4][5]
  • DiscoverEd — прототип поиска по открытым образовательных ресурсам, разрабатывается Creative Commons
  • Krugle
  • MozDex
  • Wikia Search — запущен в 2008 году, закрыт в 2009[6][7]
  • search2.net

Примечания

Ссылки



Что такое monamir.ru Monamir.ru является одним из мощнейших информационным ресурсом в рунете. Он открыт для любого пользователя. Наш сайт - это библиотека, которая является общественной. Любой посетитель сможет найти необходимую для себя информацию.

Основа этой страницы находится в Вики. Текст доступен по лицензии CC BY-SA 3.0 Unported License.

Wikipedia® — зарегистрированный товарный знак организации Wikimedia Foundation, Inc. monamir.ru является независимой компанией и не аффилирована с Фондом Викимедиа (Wikimedia Foundation).

E-mail: admin@monamir.ru
Сайт Monamir.ru является НЕофициальным.