StormCrawler는 Apache Storm으로 분산 웹 크롤러를 구축하기위한 오픈 소스 SDK입니다.이 프로젝트는 Apache 라이센스 v2하에 있으며 대부분 Java로 작성된 재사용 가능한 리소스 및 구성 요소 모음으로 구성됩니다.StormCrawler의 목표는 다음과 같은 웹 크롤러를 구축하는 데 도움이되는 것입니다.좋은 소식은 그렇게하는 것이 매우 간단하다는 것입니다.종종, 스톰 크롤러를 Maven 의존성으로 선언하고, 자신 만의 토폴로지 클래스 (팁 : ConfigurableTopology를 확장 할 수 있음)를 작성하고, 프로젝트에서 제공하는 컴포넌트를 재사용하고, 몇 가지 커스텀 클래스를 작성하기 만하면됩니다.자신의 비밀 소스를 위해.핵심 구성 요소 외에도 프로젝트에서 재사용 할 수있는 외부 리소스를 제공합니다 (예 : ElasticSearch의 스파우트 및 볼트 또는 Apache Tika를 사용하는 ParserBolt)다양한 문서 형식을 구문 분석합니다.StormCrawler는 가져 오기 및 구문 분석 할 URL이 스트림으로 제공되는 유스 케이스에 적합하지만 특히 짧은 대기 시간이 필요한 대규모 재귀 크롤링에 적합한 솔루션입니다.이 프로젝트는 여러 회사의 생산에 사용되며 적극적으로 개발 및 유지 관리됩니다.
stormcrawler