https://zhach.news/how-your-news-is-created/作者背景:曾任职于 YouTube 和 Google,参与事实核查(Fact Checking)与 YouTube 新闻(YT News)相关工作
---
核心论题
大型科技公司(Google、Meta、X 等)如何从记者敲击键盘到用户手机推送通知,在数秒内完成新闻故事的识别与定义?文章揭示了这一多层级、多步骤、瞬时完成且具备容错机制的完整流程。
---
三阶段流程
Stage 1:实时网页抓取(Real-Time Web Scraping)
• Google 的网络爬虫持续扫描互联网,专门针对新闻来源设计加速更新机制,检测周期从周级压缩至秒级
• 自动抓取内容包括:标题、正文、作者、发布日期、图片/视频
• 抓取范围不限于《纽约时报》、BBC 等主流媒体,覆盖数千个地方性、全国性、国际性新闻源
• 此阶段目标:量大于质,尽可能快、尽可能多地收集原始数据
Stage 2:新闻聚类(Clustering News Stories)
• 采用无监督机器学习技术,将同一事件的多个报道自动归入同一个"故事簇"
• 分析维度:用词、人物/地名提及、上下文语境 → 计算"相似度评分"
• 案例:路透社、加州地方报纸、外国通讯社对同一场山火的报道,尽管标题和文风不同,AI 会因共同提及的位置、时间、关键词("野火"、"疏散"、"火势控制")将其聚为一类
• 用户在 Google News 看到的一条标题加多篇文章轮播,即是聚类结果的可视化呈现
Stage 3:信息提取(Information Extraction)
• 从已聚类的文章中提取何人、何事、何时、何地、为何等核心要素
• 确定最通用的标题主题(如"飓风袭击海岸")和最常提及的地点(如"佛罗里达")
• 提取关键细节:受影响人数、相关官员姓名、最新进展
• 系统据此生成简洁摘要和吸引眼球的标题,还可组织时间线或"关键更新"板块
---
三阶段速记
实时新闻故事生成三步曲:网页抓取 → 新闻聚类 → 信息提取
---
