新闻是如何产生的

https://zhach.news/how-your-news-is-created/作者背景：曾任职于 YouTube 和 Google，参与事实核查（Fact Checking）与 YouTube 新闻（YT News）相关工作

---

核心论题

大型科技公司（Google、Meta、X 等）如何从记者敲击键盘到用户手机推送通知，在数秒内完成新闻故事的识别与定义？文章揭示了这一多层级、多步骤、瞬时完成且具备容错机制的完整流程。

---

三阶段流程

Stage 1：实时网页抓取（Real-Time Web Scraping）

• Google 的网络爬虫持续扫描互联网，专门针对新闻来源设计加速更新机制，检测周期从周级压缩至秒级

• 自动抓取内容包括：标题、正文、作者、发布日期、图片/视频

• 抓取范围不限于《纽约时报》、BBC 等主流媒体，覆盖数千个地方性、全国性、国际性新闻源

• 此阶段目标：量大于质，尽可能快、尽可能多地收集原始数据

Stage 2：新闻聚类（Clustering News Stories）

• 采用无监督机器学习技术，将同一事件的多个报道自动归入同一个"故事簇"

• 分析维度：用词、人物/地名提及、上下文语境 → 计算"相似度评分"

• 案例：路透社、加州地方报纸、外国通讯社对同一场山火的报道，尽管标题和文风不同，AI 会因共同提及的位置、时间、关键词（"野火"、"疏散"、"火势控制"）将其聚为一类

• 用户在 Google News 看到的一条标题加多篇文章轮播，即是聚类结果的可视化呈现

Stage 3：信息提取（Information Extraction）

• 从已聚类的文章中提取何人、何事、何时、何地、为何等核心要素

• 确定最通用的标题主题（如"飓风袭击海岸"）和最常提及的地点（如"佛罗里达"）

• 提取关键细节：受影响人数、相关官员姓名、最新进展

• 系统据此生成简洁摘要和吸引眼球的标题，还可组织时间线或"关键更新"板块

---

三阶段速记

实时新闻故事生成三步曲：网页抓取 → 新闻聚类 → 信息提取

---

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到qingge@88.com，深感抱歉，我们会做删除处理。

相关阅读