Apache Nutch

Apache Nutch

Apache Nutch는 확장 성이 뛰어나고 확장 가능한 오픈 소스 웹 크롤러 소프트웨어 프로젝트입니다.Nutch는 전적으로 Java 프로그래밍 언어로 코딩되지만 데이터는 언어 독립적 형식으로 작성됩니다.모듈 식 아키텍처로 개발자가 미디어 유형 구문 분석, 데이터 검색, 쿼리 및 클러스터링을위한 플러그인을 작성할 수 있습니다.페처 ( "로봇"또는 "웹 크롤러")는이 프로젝트를 위해 특별히 처음부터 작성되었습니다.
apache-nutch

웹 사이트:

카테고리

Linux 용 Apache Nutch의 대안