Crafting Knowledge: Exploring the Creative Mechanisms of Chat-Based Search Engines
创建于 更新于
摘要
本报告深入研究了基于大型语言模型(LLM)的聊天式搜索引擎(以Bing Chat为例)如何选择引用网站。通过多渠道数据采集与自然语言处理技术,发现Bing Chat偏好于语义可读性高、逻辑严谨、情感极性低且困惑度(perplexity)低的文本,这些偏好源自基础LLM的先验而非人工设计。此外,基于GPT-4的RAG模型显示出与Bing Chat一致的引用标准,且聊天式搜索引擎引用的网站间文本相似性高于传统搜索引擎,导致信息多样性减弱,揭示了下一代搜索技术的独特经济影响与研究价值 [page::0][page::3][page::4][page::10][page::22][page::26][page::27][page::28]
速读内容
- 研究背景与问题框架 [page::0][page::1][page::2]:
- 聊天式搜索引擎结合LLM与RAG技术,能以对话形式生成整合多网站信息的回答,具有人类类比的元认知能力。
- 提出三大研究问题(RQ1-RQ3),包括聊天式搜索引擎引用标准、与传统搜索引擎排序标准的差异及这些标准的来源。
- 数据采集与构建 [page::10][page::11][page::12][page::13][page::16][page::17][page::18]:
- 采集700条成功查询,涵盖Bing Chat引用的网站与传统Bing搜索引擎排名网站,总计13,428个网站。
- 利用Universal Sentence Encoder和语义相似度,抽取网站与回答中引用句子最匹配的文本块用于分析。
- 构建了三个数据集(Dataset 1A针对Bing Chat引用,Dataset 1B针对传统搜索排名,Dataset 2针对基于GPT-4的RAG引用)。
- 主要变量设计 [page::18][page::19]:
- 采用七个文本特征指标:可读性(Readability)、逻辑深度(Analytic)、确定性(Certitude)、主观性(Subjectivity)、情感极性(Polarity)、对话风格(Conversation)、以及困惑度(Perplexity)。
- 困惑度衡量文本对语言模型的可预测性,低困惑度表示文本较符合模型预期。
- 聊天式搜索引擎引用标准分析 [page::21][page::22][page::23]:

- Bing Chat更倾向引用可读性强、逻辑性强、情感极性低、对话风格弱且困惑度低的文本。
- 困惑度降低显著提升被引用概率,支持内容偏好源自LLM内部生成机制。
- 传统搜索引擎排名标准对比 [page::23][page::24]:
| 指标 | 影响方向 | 显著性 | 说明 |
|------------|---------------------------------|-------------------|------------------------------|
| Readability | 可读性越好,排名越靠前 | 显著(p<0.05) | 与聊天式搜索一致 |
| Analytic | 影响不显著 | 不显著 | 与聊天式搜索有区别 |
| Certitude | 确定性越高,排名越靠前 | 显著(p<0.05) | 与聊天式搜索相反 |
| Polarity | 情感极性影响不显著 | 不显著 | 与聊天式搜索不同 |
| Conversation| 对话风格偏好较弱 | 显著(p<0.05) | 方向与聊天式搜索相同 |
| Perplexity | 无明显关联 | 不显著 | 与聊天式搜索显著对比 |
- 传统搜索引擎偏好确定性强且信息多样,缺少困惑度偏好,表明两者排序逻辑不同。
- GPT-4 RAG系统的引用标准验证 [page::25][page::26]:

- GPT-4 RAG系统引用标准高度与Bing Chat吻合,均偏好可读性好、逻辑强、情感极性低、对话风格弱、困惑度低内容。
- 进一步支撑聊天式搜索引擎偏好自底层LLM固有特性自然涌现的观点。
- 内容多样性与网站相似度研究 [page::27]:
- RAG引用的网站内容相互之间平均相似度为0.570,高于由传统搜索引擎排名相同数量网站的0.533。
- 聊天式搜索减少了搜索结果的信息多样性,可能影响用户接触的观点丰富性。
- 结论与应用启示 [page::28][page::29]:
- 聊天式搜索引擎展示独特内容筛选机制,源于底层LLM模型特性,不完全等同于传统搜索排序算法。
- SEO策略需调整匹配LLM偏好,内容创作者可通过直接与LLM交互优化内容。
- 用户应注意聊天式搜索的信息多样性减少,需结合多渠道信息平衡效率与广度。
- 监管机构应关注新兴搜索模式对市场公平性和信息传播的影响。
深度阅读
金融研究报告详尽分析报告
报告标题: Crafting Knowledge: Exploring the Creative Mechanisms of Chat-Based Search Engines
作者及机构: Lijia Ma, Xingchen (Cedric) Xu, Yong Tan,均来自华盛顿大学Michael G. Foster商学院
发布时间: 2023年(文中提及相关时间节点为2023年上半年)
研究主题: 本报告聚焦于利用大型语言模型(LLMs)和检索增强生成技术(RAG)驱动的聊天式搜索引擎(以微软New Bing平台的Bing Chat为例),探究其内容选择机制及背后的创造性运作模式。
---
1. 元数据与报告概览
报告指出,随着搜索引擎生态的演进,传统基于关键词列表的检索模式正被以GPT-4等LLM驱动、集成信息理解和生成能力的聊天式搜索引擎颠覆。Bing Chat能展现类似人类的元认知能力,不仅简单呈现网页链接,而是整合多个来源的信息,生成具备逻辑性和创造性的答案。
报告核心在于解析这一“认知”过程,尤其是Bing Chat如何从海量网页中选择信息来源以支持回答。通过对用户查询和搜索结果间的网站引用数据进行大规模采集和文本挖掘,研究指出Bing Chat偏好于:
- 更具可读性和正式结构的内容;
- 语言模型表现出低困惑度(perplexity)即“可预测”的文本。
此外,通过对比微软Bing Chat与OpenAI基于GPT-4的知识检索API(RAG)返回结果中的文本偏好,报告认为这类偏好天生源自底层LLM的语言模型机制,而非人工特意设计。报告还发现,基于RAG的检索结果在信息内容的相似性上普遍超过传统搜索引擎排名最高的网站,暗示聊天式检索在信息多样性方面存在一定减弱。
整体上,报告提出,聊天式搜索引擎内容选择模式的独特性不仅具有学术研究价值,更蕴含深刻的经济学和平台生态影响。
---
2. 逐节深度解读
2.1 引言(第1-4页)
- 核心论点:当前,数字信息爆炸使搜索引擎成为连接信息提供者和用户的关键桥梁。新一代聊天式搜索引擎(如Bing Chat、Google Bard),采用LLM与RAG技术,能够理解用户查询和多维度融合信息,生成自然语言回答,而非传统结果页面的链接列表。
- 研究动机:由于LLM的复杂架构和“黑箱”特性,Bing Chat在挑选支持回答的网站及内容上具有显著的认知角度,而这种“认知”过程尚不得而知。深入理解其内容选择机制不单是学术探索,也是重要的经济问题,因为搜索结果的可视度直接影响网站流量、商业价值与用户决策。
- 疑问与假设:
- RQ1:聊天式搜索引擎如何选择引用的网站?
- RQ2:聊天式搜索引擎的选择标准如何与传统搜索引擎排名标准区分?
- RQ3:这些选择标准是否由人工设计,还是LLM模型自然产生?
- 基本假设:LLM的输出可能内隐带有语言风格偏好、文本结构的易读性及困惑度影响;因此,选择的依据可能主要源自语言模型固有的认知特征,而非人为运算规则。
---
2.2 相关文献回顾(第5-10页)
- AI性能与对齐(AI Alignment):介绍LLM展现的“涌现能力”及其复杂行为,强调AI系统对人类价值与目标的对齐需求。人类反馈强化学习(RLHF)等技术保障LLM输出符合人类期望。
- 搜索引擎排名与营销:传统搜索注重排名盈利机制、用户行为及SEO优化策略。报告所在研究填补了聊聊AI搜索引擎内容选择机制领域的空白,为新版SEO研究提供基石。
- 基于生成式AI的信息检索:近年来RAG模式及LLM辅助信息检索方法不断兴起,研究对其设计和评价难点进行了梳理。本研究在此基础上,从文本特征角度剖析聊天式搜索引擎的检索/引用判据。
---
2.3 数据与变量构造(第11-20页)
- 数据来源:
- 数据集1:采自New Bing,包括用户查询、Bing Chat回复的文本及其引用网站、传统Bing搜索结果第一二页网站链接,共13,428个网站。
- 数据集2:基于OpenAI GPT-4知识检索API,模拟RAG过程,将网站内容制作为检索文档,观察被引用情况。
- 预处理与细分:
- 网站内容按128字符(或128 token)等长分段,以便测量句子与网页文本片段间相似度(利用Universal Sentence Encoder嵌入和余弦相似度)。
- 通过算法匹配,确定每条被引用句子对应的网页文本片段,保证引用分析的局部对应性。
- 变量定义:
- 因变量:如是否被引用(Cited)、传统搜索排名(Rank);
- 自变量(字面特征量化):
- Readability(可读性,负数表示更容易读)
- Analytic(分析性,逻辑性强)
- Certitude(确定性、断言强度)
- Subjectivity(主观性)
- Polarity(情绪极性)
- Conversation(口语化程度)
- Perplexity(困惑度,语言模型预测文本难度,值越低越“可预测”)
- 样本规模:
- Dataset 1A(Bing Chat引用句子与网站块的匹配):约5万条;
- Dataset 1B(传统搜索涉及网站与排名关系):1.1万条;
- Dataset 2(GPT-4 RAG引用样本):约1.34万条。
- 概要统计(见表2至表4)显示总体特征均符合预期。Perplexity约4.7,反映文本难度范围;其它情感、语体特征均在合理区间波动。
---
3. 关键数据与实证分析(第21-27页)
3.1 Bing Chat内容选择标准(第21-23页)
- 方法:以句子-网站块为单位,用多种回归(OLS、Logistic、Probit)模型检验文本特征与被引用概率的关系。
- 结果详解(表5):
- 正向显著特征:
- Readability(更可读)增加被引用概率。
- Analytic(逻辑更强)同样显著正相关。
- 负向显著特征:
- Polarity(情感极性强的)文章被引用概率下降(弱情绪文本更受青睐)。
- Conversation(口语化强)负相关。
- Perplexity:困惑度越低越可能被引用,意味着Bing Chat喜欢“更易被LLM理解”的文本。
- Certitude与Subjectivity在此模型中无显著影响。
- 结论:Bing Chat的引用行为符号性偏好为正式、逻辑且语言风格较中性、低情绪激烈、低困惑度的内容。Perplexity的显著负相关表明文本与LLM训练语料吻合程度是重要驱动因素,进一步支持RAG模型内生产生偏好的假设。
3.2 传统搜索引擎排名标准对比(第23-25页)
- 方法:以普通搜索结果排名为因变量,利用有序Logit和Probit模型估计相同自变量与排名间的关系。
- 结果详解(表6):
- Readability(可读文档)依然有利于排名(系数为负,排名越靠前值越小)。
- Certitude(确定性强内容)也正面影响排名,说明传统搜索倾向有断言性的文本。
- Conversation(口语化)则为正系数,表现出与Bing Chat偏好截然不同,传统搜索中口语色彩强反而排名较低。
- Analytic和Polarity及Perplexity对排名均无显著影响。
- 比较要点:
- 聊天式搜索引擎与传统搜索在可读性、口语化偏好上存在交叉与反向。
- 传统排名无困惑度指标影响,突出差异。
- 传统搜索更偏好“确定性”高、或主观性中性内容。
- 结论:Bing Chat的文本选择标准与传统排名标准不完全重叠,且LLM文本可预测性(perplexity)显著影响仅在聊天式搜索中出现,体现了技术根基的差异。
3.3 GPT-4 基础RAG模型内容选择标准验证(第25-27页)
- 方法:利用OpenAI的RAG API,基于同样网站内容和查询,模拟底层语言模型直接的信息检索与引用,构建数据集2,回归分析得到引用概率与文本特征的关系。
- 结果详解(表7):
- GPT-4 RAG引用偏好与Bing Chat高度一致:
- 阅读性、分析性显著正相关。
- 法律偏好低情绪(Polarity负相关)。
- Conversation负相关,忌口语化。
- Perplexity负相关,低困惑度文本优先。
- Certitude及Subjectivity依旧无显著。
- 进一步分析:
- RAG引用的网站内容间相似度明显高于传统搜索排名的高位网站(两组余弦相似度分别为0.57 vs 0.53,t=5.32,p<0.01)。
- 说明聊天式搜索的单一答案合成需求导致引用信息更为集中、同质。
- 结论:GPT-4基础模型天然具备内容文本选择偏好,Bing Chat引用标准并非人为强加,而是模态内在特征反映。聊天式搜索可能牺牲内容多样性以确保答案的连贯一致。
---
4. 图表与关键数据详解
4.1 表1至表4:数据统计表
- 描述了不同层面(查询、句子、网站)数据样本量及各个指标(引用句数、网站总数、引用句来源网站数)的均值、标准差、极值分布,反映数据的丰富性和变量的多样性。
- 例如表1显示700个查询平均收集到约19个网站,Bing Chat平均引用3.37个网站支持回答。
4.2 图1:New Bing界面示例图
- 展现New Bing传统搜索结果的页面布局(左侧搜索结果列表)与右侧Bing Chat生成的自然语言回复,回复中通过数字脚注对引用网站标注,末尾附带可点击的多条网站链接。
- 反映聊天式搜索不仅提供链接,更嵌入逻辑连贯性极强的答案,加深用户体验。
4.3 图2:Bing Chat语料对齐流程(Chunk selection)
- 说明了文本处理细节:对网页内容均匀切片,与Bing Chat回答中带引用的句子分别译成向量(embedding),通过向量相似度筛选最相关的网站内容块。
- 确保样本处理准确,便于后续文本特征量化与回归分析。
---
5. 估值分析(此报告无典型财务估值,仅涉及文本特征统计建模)
- 本报告采用的实证方法基于文本数据回归分析,核心是逻辑回归与线性概率模型,不涉及传统金融估值法如DCF或P/E等。
- 语言模型的“困惑度”被创新地纳入解释变量,弥补了语言认知理解差异对信息选择的影响研究空白。
---
6. 风险因素评估
报告内部未专门讨论风险因素或缓解策略,然而隐含风险可概括为:
- 信息多样性下降的风险:由于聊天式搜索引用的网站内容趋同,用户信息获得的多样性及观点包容性降低,存在“信息茧房”风险。
- 模型黑箱风险:聊天式搜索引擎基于LLM的隐蔽性和复杂性,导致算法和内容选择机制难以公开透明,监管和信任建设受限。
- 技术演进引发SEO重新洗牌风险:网站如何适应人工智能导向的内容优选逻辑尚不明朗,潜在带来搜索生态权力再分配及市场竞争格局变动风险。
---
7. 批判性视角与细微差别
- 报告强调LLM驱动的聊天式搜索引擎选择标准天然生成,较少受人工算法调控,但这一点仍需警惕模型训练数据偏差和内隐偏好对内容曝光的影响,可能引发对特定信息过度聚焦或偏倚。
- 文本特征选取基于标准NLP工具,部分指标(如Certitude)在传统搜索和聊天搜索中的影响差异,透露背后检索目的和用户交互模式不同,深层逻辑需要进一步定性补充说明。
- 由于研究采用Bing Chat和OpenAI的API,结果有限于这两家技术体系范畴,其他聊天搜索引擎可能存在不同机制,适用范围有界。
- 网站内容片段切分虽便于建模,但可能导致文本上下文丢失,进而影响对信息“关联性”的判定准确性。
---
8. 结论性综合
本次研究通过系统性采集和多维度文本特征分析,深入揭示了聊天式搜索引擎(以Bing Chat为代表)的内容选择机制,特别指出:
- 聊天式搜索引擎在源网站和内容选择上表现出的显著偏好为:
- 更高的可读性(Readability);
- 更强的逻辑分析性(Analytic);
- 更低的情感极性(Polarity)与更少的口语化表达(Conversation);
- 以及对语言模型较低困惑度(Perplexity,即“可预测”文本)的青睐。
- 这些偏好在与传统搜索引擎的排名标准对比时展现出显著区别,后者虽同样看重可读性,但无困惑度偏好且更青睐断言性强的内容。
- 通过获取和分析基于GPT-4的RAG模型结果,研究确认聊天式搜索引擎的选择标准主要源于LLM固有特质,而非外部手工设定。
- 在内容呈现层面,RAG中引用的网站内容同质性显著高于传统搜索排名高位网站,表明聊天式搜索融合单一连贯回答的要求导致了信息多样性的压缩。
- 该现象有可能影响搜索生态的流量分配、网站经济价值和用户信息获取结构,提示产业界需重新审视SEO策略和市场设计,监管机构也需关注市场新动态。
- 报告强调对未来AI驱动的信息检索系统评价应兼顾底层LLM模型与上层应用,推动全面理解生成式AI系统的行为模式及社会影响。
---
9. 图表Markdown溯源示例
- 图1示例

注:New Bing搜索结果页与聊天窗口示例,展示传统链接与Bing Chat集成回答和引用关系 [page::11]
- 图2示例

注:文本语句与网站内容分块的相似度匹配流程,用于推断引用位置 [page::13]
---
总结
本报告通过严谨的数据采集与分析,首次系统剖析了以大型语言模型驱动的聊天式搜索引擎的文本召回与引用标准,揭示出LLM模型内生的文本可读性、逻辑性及低困惑度倾向。与传统搜索引擎明显不同的内容选择及呈现策略带来了信息多样性下降的隐忧及商业竞赛新局面,对研究者、开发者、SEO专业人士及监管者均具有重要启示。进一步研究应扩展至不同平台和语言模型,对聊天式搜索引擎的长期生态与经济影响进行追踪评估。
---
引用溯源:本文中所有结论及数据均基于报告内容,页码标注详见页码,限制不超过2页连续,如[page::11,13,22,26,27,28,29]。