签证移民信息平台 —— 为内容时效与 AI 搜索可见度而建

这行的人都懂的那种头疼

签证移民内容的保质期是以周计的。处理时长一动、某个签证类别一关、资格条款一改措辞——周一还对的页面，周五就悄悄错了。没人收到提醒。页面照样排在那、照样有人看，只是它现在派发的指引不再是帮忙，而是法律风险。做过签证或移民站的人都清楚，真正怕的不是某个月流量惨淡，而是一个看起来理直气壮、实则早就过期的页面，被人当真照着办了。

更麻烦的是，你得在两个互相拉扯的地方同时露脸：在传统搜索里排得上，又要被 AI 答案引用——还得是多语言，还不能看着像在钻空子。可大多数内容站是客户端渲染的 SPA，在浏览器里看着好好的，对那些决定上面两件事的爬虫来说却是一片空白；而它们对一个页面到底有多新这件事，无论是对读者还是对引擎，都没有任何交代机制。

决定怎么做的几条约束

三件事没有商量余地。内容必须对不跑 JavaScript 的 bot 机器可读。它得自己带着时效，这样过期的页面能被抓出来、被打上标，而不是不声不响地照发。而且这两件事都得用两种语言做到，又不能让维护量翻倍。

第一条本身就把架构定死了。AI 检索爬虫基本不渲染客户端 JavaScript——一份基于 5 亿多次 GPTBot 抓取的分析发现，AI 爬虫不渲染客户端 JavaScript，在浏览器里才画出内容的页面，对它们来说就是空白。所以纯客户端渲染的 SPA，在写第一行代码之前就被排除了。

后两条与其说是选某个框架，不如说是一种得熬过往后每一次改动的纪律。时效只有在”忘不掉”的前提下才有用；双语对齐只有在两种语言共用一份事实来源、而不是各自漂移成两个长得像的站时才便宜。这两点最后都变成了结构上的决定，而不是指望作者记住的约定。

这三条底下还压着一条法律约束。在大多数内容站上，一个过期或翻译走样的页面顶多是丢人；在这里，它是有人可能在口岸、在递签时照着办的建议。这让寻常的取舍换了个算法：时效和便利冲突时，时效赢；一版快但糊的机器翻译跟一版慢但经过审校的冲突时，上审校那版。整套东西都偏向”出错要响”，偏向绝不让一条没核实的说法看起来像权威。

我们怎么解

站点跑在 Next.js（App Router）上，通过 OpenNext 跑在 Cloudflare Workers 上。内容服务端渲染，数据允许的地方就静态化，于是每个路由在第一个响应里就吐出完整 HTML。搜索爬虫、不渲染的 AI bot，看到的和人一样是全文——这正是关键，也正是 SPA 给不了你的。

选 OpenNext + Workers，而不是更常见的 Node 托管，是有意的。这些页面是重读、轻改的：一篇指南只在政策变时才变，不是每次请求都变。这种特征要的是在边缘上大力缓存、全球就近、便宜地分发，正是 Workers 给得起的；而 OpenNext 让我们照常写标准的 App Router 代码，不用手搓一套边缘运行时。我们接受的代价是更紧的运行时——不能随便用 Node API、得盯着 bundle、留意冷路径——但对一个内容平台来说，换来”爬虫一来 HTML 已经在边缘上等着了”，这笔账划算。

App Router 的坑在于元数据会无声失败。一旦把内容放进客户端组件，canonical、hreflang、单页 title 就悄悄退回默认值，而且一声不吭。在一个双语站上，这会直接打坏搜索引擎依赖的语言信号。所以每个路由的元数据都留在它的服务端 shell 里，由渲染正文的同一条内容记录生成，我们再对照渲染出来的 HTML 去核对，而不是默认框架会替你带过去。

时效层

时效问题我们给了它单独一层，而不是一句脚注，因为”记得更新页面”不是一套系统。每一条指引都带着一份结构化记录：它背后的政策上一次是什么时候确认的、对照的是哪个来源——这跟 CMS 白送的那个表面”最后编辑时间”是分开的。改个错别字不会重置政策时钟，只有重新确认了规则才会。这个区分很要紧，它是”我们动过这个文件”和”我们核过它仍然成立”之间的差别。

从这份记录出发，系统做两件事。它在页面上前置一个明确的”截至某日”，这个日期一举两得：新鲜度既是排名信号也是被引用信号；对读者来说，它划清了”这是现行规则”和”这条得重新核一遍”之间的界线。它还跑一套复审节奏——一旦某条政策的确认日期越过阈值，页面就被标出来等复核，而不是任它烂掉，让人先于读者去看一眼。阈值按话题调，因为处理时长这类页面比一条稳定的资格定义过期得快得多。

这套标记是刻意保守的。签证话题上，日期写错比没有日期更糟，所以这一层宁可把一个页面标出来等复核，也不让一个可能过期的当现行的混过去。我们考虑过让被标记的页面直接自动下线或隐藏，最后否了：页面一消失，排名和外链就一起没了，而一个清清楚楚标着日期、正在复核的页面，对读者比一个 404 更诚实。所以被标记的页面照样在线，明白地带着日期，在编辑队列里往前排。

两种语言，一份事实

双语对齐靠路由强制，不靠自觉。语言是路由里的一段，每条内容是一条记录、带两个语言字段，页面就从这一条记录构建。没有第二个站要同步；模板上一个结构性改动，两种语言一次同时落地。留作语言相关的，恰好就是该相关的那部分——正文，以及关键的元数据。

每个语言各自发自己的 JSON-LD 和自己的 hreflang 集合，都从那条共享记录生成，于是引擎拿到的是每语言正确的结构化数据，加上两个 URL 之间一张干净的互指映射。hreflang 互指一旦错了，搜索引擎要么把这一对当重复，要么发错语言；因为两边都是从一条记录生成、而不是手工维护，它们没法各走各的。“截至某日”的日期也按语言各算，所以在一种语言里重新确认了某条规则，并不会悄悄暗示译文也核过了——每一边管自己的时效。

被引用，以及把它量出来

排上去，只是在列表里拿到一个链接；被答案引用是另一回事，能下手的地方很具体。每个模板都带 JSON-LD 结构化数据——Article、FAQ、Breadcrumb，按模板类型分型用，而不是一律平铺——让引擎直接从标记里读事实，而不是从正文里猜。最早的 GEO 研究发现，补上引述和来源是让内容进 AI 答案最强的几个杠杆之一——而这正是标记和”截至某日”的日期给引擎拿来用的东西：一条标了日期、带了来源、机器可读的说法，比同一个事实埋在段落里更容易被搬进答案。

GA4 把 AI 答案引擎带来的流量分进单独的渠道，于是被引用这件事是量出来的，不是假设出来的。我们能看出到底哪些页赢来了答案引擎的引用、然后多写那种，而不是靠猜哪些结构化数据和时效上的选择起了作用。这把 GEO 从一种信念变成了一个反馈回路。

我们也发布了 llms.txt，并在 robots 里给 AI 爬虫放行。但我们把它当便宜的对冲，不当杠杆。一份覆盖 30 万域名的研究发现，llms.txt 对 AI 引用没有可测量的影响，采用率约 10%。它几分钟就能上线，所以留着——但真正赢来引用的是服务端渲染的 HTML 和结构化数据，不是这个文件。给 AI 爬虫放行本身也是一个有意的决定：有些发布方会把它们挡掉，但对一个目标就是被引用的平台来说，你想让它引你的那些 bot，正是你必须放进来的。

结果

每个页面都吐出带结构化数据的服务端渲染 HTML，两种语言，搜索爬虫和不渲染的 AI bot 都读得到。内容自己带着每语言各算的”截至某日”，政策时钟一到点就被标出来等复核，过期指引会被抓住，而不是悄悄照发。两种语言之所以能步调一致，是因为它们从一条记录构建，而不是两个站。而且做了埋点，团队能看出哪些页被引用，接着多写那种——在一个”被找到”和”保持准确”是同一件事的行当里，这正是它该做到的。