5
DiffBot
* 웹 페이지에서 자동으로 데이터 가져 오기 : Diffbot의 컴퓨터 비전 API는 웹을 데이터베이스로 전환합니다.* 자동 API : 자동 추출 기사, 제품 및 기타 친숙한 페이지 유형에서 구조화 된 컨텐츠를 자동으로 가져옵니다.
- 유료 앱
- Web
왜 Diffbot입니까?우리는 더 나은 웹 데이터를 얻는 데 전념하고 있습니다.수백 명의 고객이 매달 수백 만 건의 전화를 거는 이유 중 일부는 다음과 같습니다. # 웹 최고의 콘텐츠 추출기 : Diffbot은 규칙이나 교육없이 자동으로 작동합니다.웹 페이지에서 데이터를 추출하는 더 좋은 방법은 없습니다.Diffbot이 다른 콘텐츠 추출 방법에 어떻게 누적되는지 확인하십시오. 기능 비교 텍스트 추출 품질 총격 # 페이지 자동 식별 : 분석 API를 사용하여 사이트를 크롤링하는 동안 모든 제품, 기사, 토론 또는 이미지를 자동으로 찾아 추출하십시오.API # 세부 제품 데이터 분석 : 제품 API는 모든 가격 데이터, 제품 ID, 브랜드 및 전체 사양 테이블을 포함한 전체 제품 정보를 자동으로 반환합니다.제품 API # 청결한 텍스트 및 HTML : 기사, 토론 스레드, 제품 설명 및 이미지 캡션이 순수 텍스트 및 위생 처리 된 HTML로 반환됩니다.오늘 테스트 시작 #Structured Search : Google 검색 API를 사용하여 모든 크롤링에서 구조화 된 콘텐츠를 검색하고 일치하는 결과 만 반환합니다.또한 ... ¤ 모든 API는 Javascript를 실행하므로 컨텐츠는 일반 브라우저처럼 구문 분석됩니다.¤ 시각적 처리 덕분에 대부분의 영어 이외의 페이지에서 작동합니다.¤ 날짜 정규화 : 날짜 소인이 정규화되어 RFC 1123 (HTTP / 1.1) 표준 형식으로 표시됩니다.¤ 여러 페이지 기사가 단일 API 응답으로 자동 결합됩니다.¤ 엔티티 추출 : 자동 태깅은 기사 텍스트 내의 주요 주제와 엔티티를 식별합니다.¤ API 툴킷으로 실시간으로 문제를 해결하십시오.¤ 대량 API를 사용하면 수백에서 수십만 페이지를 추출 할 수 있습니다.¤ 전체 JSON 또는 CSV 형식으로 Crawlbot 및 대량 작업 데이터에 액세스합니다.¤ 다양한 IP 주소를 사용하여 선택적으로 크롤링합니다.