白帽 GEO
让 AI 答案引擎引用你——ChatGPT、Perplexity、Google AI 概览——用诚实的方式:真权威、可抽取内容、不操纵。
更新于 2026-06-20
详情
这是什么
优化的是被 AI 答案引擎引用,而不只是被排名。ChatGPT、Perplexity、Google AI 概览不会给你十条蓝色链接,它们从少数几个自己认定可信的来源里合成出一个答案。GEO 就是让你成为其中之一的功夫:模型能干净抽取的内容、它能核验的权威、它读到你所必需的爬虫访问。全部在规则之内完成。
“规则之内”这件事现在比以前更要紧。Google 已经把操纵 AI 回答写进了 spam 政策,cloaking 加藏指令那套打法如今是有真实代价的。这种东西我们不卖。我们做的是能扛过一次算法更新的那个版本。
为什么现在值得做
这不是押注一个小众渠道。Gartner 预计到 2028 年,AI agent 将影响 90% 的 B2B 采购旅程——超过 15 万亿美元的支出,会有一部分经由这些读网页、定推荐的系统流转。模型引用不到你,你就不在它的备选名单里。而把这件事修好需要几个月才能见复利,这恰恰是要赶在对手之前动手、而不是等之后再补的理由。
多数团队漏掉的技术现实
GEO 常被当成一件内容工作来卖。它有一半是管道工程,而管道恰恰是多数站点悄悄翻车的地方。
AI 爬虫不跑你的 JavaScript。 对 5 亿多次 GPTBot 抓取的分析显示,AI 检索爬虫不执行 JavaScript——它们读原始 HTML,然后就走了。一个纯客户端渲染的 SPA 端给它们的是一具空壳。所以我们先查的,是爬虫到手的究竟是什么,而不是浏览器里渲染出来的样子。修法是服务端渲染或静态 HTML:用 Next.js App Router 输出真实标记的站点,或者把内容密集的站用 Astro 重建、让每页首字节就是 HTML。我们自己这套是通过 OpenNext 渲染、由 Cloudflare Workers 提供服务,HTML 在边缘缓存,对用户和爬虫都快。
CDN 可能正挡着你想要的爬虫。 Bot 管理规则和过于激进的 WAF 默认配置,常在 GPTBot、ClaudeBot、PerplexityBot 到达源站之前就把它们丢掉。站点对人看着没问题,对引擎却是隐形的。我们查真实的请求日志,修 robots.txt,在边缘放行这些指名的爬虫——在 Cloudflare 上,就是 Worker 或 Pages 部署前的几条规则。
结构化数据告诉模型它在读什么。 我们用 JSON-LD、按 schema.org 词汇给实体打标——Organization、Product、FAQ、Article——这样引擎在解析”谁做 X”时,拿到的是一份机读答案,而不是从散文里猜。它不是什么排名魔法,它消除的是歧义。
速度仍然算数。 慢页面被抓得更少、渲染得更差。我们把页面控制在 Core Web Vitals 的阈值内,这多半是上面静态 HTML 路线的副产品,不是另一摊活。
真正换来被引用的是什么
技术上的修复让你”可读”,但换不来”被引”。要被引,有一招是有同行评审证据撑着的。
最早那篇 GEO 研究(KDD ‘24)测的就是哪些内容改动能提升一个页面在 AI 生成答案里的可见度。结论是:加上可核验的统计、直接引述、以及指向权威来源的引用,是最强的那根杠杆——被引可见度最高提升约 40%,其中”引用来源”是单项最有效的改动。这就是我们做法的实证骨架:我们不是把你的内容改得”更吸引人”,而是改得更可被引用——论断有数字、有指名的来源、有可整段摘出且摘出后不丢语义的自足段落。
我们也写成答案前置:每页先给结论,再给支撑,因为这正是抽取式模型偏好的形状。埋在后面的结论不会被引用。
关于 llms.txt
llms.txt 我们被问得很多。老实说:证据还不到位。一项横跨 30 万域名的研究发现它对 AI 引用没有可测影响,采用率约 10%,也没有哪个主流答案引擎确认会读这个文件。我们会顺手放一个,因为它便宜又无害;但不会把它包装成增长杠杆,也不会让它挤掉真正有用的事。
度量,保持诚实
不量就没法优化,量不到就不该乱说。我们在 GA4 里给来自 AI 引擎的引流打点,通过抽样你买家真正会问的提问来追踪 AI 被引份额,并用 Playwright 持续记录引擎对这些提问的回答怎么变。凡是归因真的做不到的地方——AI 答案里这种地方不少——我们就直说,而不是编一个仪表盘数字出来。
还有一件相邻的事我们会顺带查,因为它常坑那些快速发布可引用内容的团队:服务端归属权校验。当你为爬虫放开页面和数据,很容易把本该受控的东西泄出去。上线前我们会按越权访问(Broken Access Control)过一遍。
我们怎么做这件事
GEO 不是一次性交付物;引擎月月在变,去年的套路会烂掉。我们把它当成标准化、持续更新的服务来做:审计、修管道、建可引用内容、装度量,然后随引擎变化复审——基于当前研究重建打法,而不是凭老经验。
引用
- GEO: Generative Engine Optimization (KDD ‘24) —— 同行评审研究,加统计与来源引用可提升 AI 被引可见度最高约 40%(2023,arXiv 2311.09735)
- Gartner:AI agent 与 B2B 采购 —— 到 2028 年 90% 的 B2B 旅程受 AI agent 影响,超 15 万亿美元(2025-11)
- AI 爬虫与 JavaScript 渲染 —— 基于 5 亿多次 GPTBot 抓取的分析:AI 检索爬虫不执行 JS(2025)
- llms.txt 对 AI 引用无明显影响 —— 30 万域名研究,采用率约 10%,无可测提升(2025)
- Google spam 政策已覆盖生成式 AI 回答 —— 操纵 AI 回答被当作 spam(2025)
FAQ
常见问题
它"白"在哪里?
我们不往内容里藏给模型看的指令、不对 AI 爬虫做 cloaking、不伪造权威。这些会被过滤或惩罚——Google 现在已把操纵 AI 回答列为 spam。我们靠真实、可核验、结构良好的内容去赢得引用。
你们能保证 ChatGPT 会推荐我们吗?
不能,谁这么承诺谁就是在忽悠你。引用本身不是确定性的。我们只去推动那些有真实证据支撑的因素,并且只追踪真能追踪的部分。
AI 搜索月月在变,怎么保证不过时?
我们把 GEO 当成标准化、持续更新的服务,而不是一次性项目——随引擎变化复审,并基于当前前沿研究重建打法,而不是去年的套路。