网页正文提取 API 接入文档content-extract
从新闻、博客、公众号等网页抽取主体正文,自动去除导航/侧栏/广告/评论。基于文本密度算法,同时返回标题、发布时间、配图列表、字数与预估阅读时长。
1. 基本信息
| 接口地址 | https://v1.apizero.cn/api/content-extract |
|---|---|
| 请求方法 | GET |
| 分类 | dev |
| 提供方 | 极数本源 |
| 计费模式 | 免费试用 |
| 单次消耗 | 0 积分 |
| 起步价 | — |
| QPS 限制 | 5 req/s |
| 每日免费额度 | 10000 次(已认证用户) |
| 匿名每日额度 | 5000 次(无 API Key) |
| VIP 免费 | 否 |
| 调用次数 |
2. 认证
匿名免登录可调每日 20 次;登录用户每日 100 次。
获取 API Key:登录 https://apizero.cn/account/keys
3. 请求参数
| 参数名 | 类型 | 必填 | 说明 | 示例 |
|---|---|---|---|---|
url | string | 是 | 目标网页 URL | — |
5. 请求示例
以下 5 种语言示例都是可直接运行的,只需把 YOUR_API_KEY 替换为实际 Key。
cURL
curl "https://v1.apizero.cn/api/content-extract?url=%3Curl%3E&key=YOUR_API_KEY"Python
import requests
resp = requests.get(
"https://v1.apizero.cn/api/content-extract",
params={
"url": "<url>",
"key": "YOUR_API_KEY",
},
timeout=15,
)
resp.raise_for_status()
print(resp.json())JavaScript (Node.js)
// Node.js 18+ / 浏览器原生 fetch
const params = new URLSearchParams({
"url": "<url>",
"key": "YOUR_API_KEY",
});
const res = await fetch(`https://v1.apizero.cn/api/content-extract?${params}`);
if (!res.ok) throw new Error(`HTTP ${res.status}`);
const data = await res.json();
console.log(data);Go
package main
import (
"fmt"
"io"
"net/http"
)
func main() {
req, _ := http.NewRequest("GET", "https://v1.apizero.cn/api/content-extract", nil)
q := req.URL.Query()
q.Set("url", "<url>")
q.Set("key", "YOUR_API_KEY")
req.URL.RawQuery = q.Encode()
resp, err := http.DefaultClient.Do(req)
if err != nil { panic(err) }
defer resp.Body.Close()
body, _ := io.ReadAll(resp.Body)
fmt.Println(string(body))
}PHP
<?php
$url = "https://v1.apizero.cn/api/content-extract?" . http_build_query([
"url" => "<url>",
"key" => "YOUR_API_KEY",
]);
$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_TIMEOUT, 15);
$body = curl_exec($ch);
curl_close($ch);
$data = json_decode($body, true);
print_r($data);6. 响应字段
| 字段 | 类型 | 说明 | 示例 |
|---|---|---|---|
title | string | 文章标题 | — |
publish_time | string | 发布时间(来源于 meta/time 标签) | — |
content | string | 提取的正文(含 markdown 风格的标题) | — |
word_count | number | 字数(不含空白) | — |
reading_time | string | 预估阅读时长 | — |
images | array | 配图 URL 列表 | — |
7. 响应示例
{
"code": 0,
"msg": "成功",
"data": {
"title": "示例文章标题",
"publish_time": "2024-01-15",
"content": "...",
"word_count": 2300,
"reading_time": "5分钟",
"image_count": 3,
"images": [
"https:\/\/..."
]
}
}8. 错误码
| code | status | 说明 |
|---|---|---|
4000 | — | url 为空 / 格式错误 / 内网地址 |
5020 | — | 目标网页无法访问 |
9. 变更日志
- 1.0.0(2026-05-07)
- 首次上线 · 文本密度算法
常见问题
网页正文提取 接口怎么免费使用?
未登录用户每个 IP 每天 5000 次免费。登录用户创建 API Key 后每天 10000 次免费,超额部分按点数计费(0 点/次)。
网页正文提取 支持哪些调用方式?
接口使用 GET 请求。文档提供 cURL、Python、JavaScript (Node.js)、Go、PHP 五种语言的可运行示例。也可以下载 /openapi.json 导入 Postman / Insomnia / Apifox 反向生成 SDK。
调用不限额么? QPS 是多少?
本接口 QPS 限制 5 req/s,每个 API Key 每日免费 10000 次。需要更高额度可升级 VIP 套餐或联系售后提高 QPS。
这个接口跟自己直连上游有什么区别?
极数本源 作为中间层提供:统一鉴权(一个 Key 调所有接口)、统一计费(点数制)、统一限流、统一错误码、多上游自动切换。免去逐个对接上游、维护 Key、统计调用量的运维成本。