网页正文提取 API 接入文档content-extract

从新闻、博客、公众号等网页抽取主体正文，自动去除导航/侧栏/广告/评论。基于文本密度算法，同时返回标题、发布时间、配图列表、字数与预估阅读时长。

1. 基本信息

接口地址	`https://v1.apizero.cn/api/content-extract`
请求方法	`GET`
分类	dev
提供方	极数本源
计费模式	免费试用
单次消耗	0 积分
起步价	—
QPS 限制	5 req/s
每日免费额度	10000 次（已认证用户）
匿名每日额度	5000 次（无 API Key）
VIP 免费	否
调用次数

2. 认证

匿名免登录可调每日 20 次；登录用户每日 100 次。

获取 API Key：登录 https://apizero.cn/account/keys

3. 请求参数

参数名	类型	必填	说明	示例
`url`	`string`	是	目标网页 URL	—

5. 请求示例

以下 5 种语言示例都是可直接运行的，只需把 YOUR_API_KEY 替换为实际 Key。

cURL

curl "https://v1.apizero.cn/api/content-extract?url=%3Curl%3E&key=YOUR_API_KEY"

Python

import requests

resp = requests.get(
    "https://v1.apizero.cn/api/content-extract",
    params={
    "url": "<url>",
    "key": "YOUR_API_KEY",
},
    timeout=15,
)
resp.raise_for_status()
print(resp.json())

JavaScript (Node.js)

// Node.js 18+ / 浏览器原生 fetch
const params = new URLSearchParams({
  "url": "<url>",
  "key": "YOUR_API_KEY",
});

const res = await fetch(`https://v1.apizero.cn/api/content-extract?${params}`);
if (!res.ok) throw new Error(`HTTP ${res.status}`);
const data = await res.json();
console.log(data);

Go

package main

import (
	"fmt"
	"io"
	"net/http"
)

func main() {
	req, _ := http.NewRequest("GET", "https://v1.apizero.cn/api/content-extract", nil)
	q := req.URL.Query()
	q.Set("url", "<url>")
	q.Set("key", "YOUR_API_KEY")
	req.URL.RawQuery = q.Encode()

	resp, err := http.DefaultClient.Do(req)
	if err != nil { panic(err) }
	defer resp.Body.Close()
	body, _ := io.ReadAll(resp.Body)
	fmt.Println(string(body))
}

PHP

<?php
$url = "https://v1.apizero.cn/api/content-extract?" . http_build_query([
    "url" => "<url>",
    "key" => "YOUR_API_KEY",
]);

$ch = curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_TIMEOUT, 15);
$body = curl_exec($ch);
curl_close($ch);

$data = json_decode($body, true);
print_r($data);

6. 响应字段

字段	类型	说明	示例
`title`	`string`	文章标题	—
`publish_time`	`string`	发布时间（来源于 meta/time 标签）	—
`content`	`string`	提取的正文（含 markdown 风格的标题）	—
`word_count`	`number`	字数（不含空白）	—
`reading_time`	`string`	预估阅读时长	—
`images`	`array`	配图 URL 列表	—

7. 响应示例

{
    "code": 0,
    "msg": "成功",
    "data": {
        "title": "示例文章标题",
        "publish_time": "2024-01-15",
        "content": "...",
        "word_count": 2300,
        "reading_time": "5分钟",
        "image_count": 3,
        "images": [
            "https:\/\/..."
        ]
    }
}

8. 错误码

code	status	说明
`4000`	`—`	url 为空 / 格式错误 / 内网地址
`5020`	`—`	目标网页无法访问

9. 变更日志

1.0.0(2026-05-07)
- 首次上线 · 文本密度算法

常见问题

网页正文提取接口怎么免费使用？

未登录用户每个 IP 每天 5000 次免费。登录用户创建 API Key 后每天 10000 次免费，超额部分按点数计费（0 点/次）。

网页正文提取支持哪些调用方式？

接口使用 GET 请求。文档提供 cURL、Python、JavaScript (Node.js)、Go、PHP 五种语言的可运行示例。也可以下载 /openapi.json 导入 Postman / Insomnia / Apifox 反向生成 SDK。

调用不限额么？ QPS 是多少？

本接口 QPS 限制 5 req/s，每个 API Key 每日免费 10000 次。需要更高额度可升级 VIP 套餐或联系售后提高 QPS。

这个接口跟自己直连上游有什么区别？

极数本源作为中间层提供：统一鉴权（一个 Key 调所有接口）、统一计费（点数制）、统一限流、统一错误码、多上游自动切换。免去逐个对接上游、维护 Key、统计调用量的运维成本。