Modeling Story Expectations to Understand Engagement: A Generative Framework Using LLMs
创建于 更新于
摘要
本论文提出利用大规模语言模型(LLMs)生成故事可能续写,以模拟受众对故事发展的预期、疑惑和惊讶特征,进而解释用户多样化的参与行为。基于逾3万章节数据,实证显示该框架能使现有故事特征工程方法的解释力提升约31%,并揭示了不同情感和心理主题在推动阅读、评论及点赞行为中的不同作用机制,为内容产业的市场营销与用户行为分析提供新范式 [page::0][page::2][page::9][page::11][page::15].
速读内容
框架创新:基于LLM生成多样化故事续写以模拟观众预期 [page::1][page::4][page::6]
- 利用预训练的LLM(如GPT-3.5-turbo)生成每个章节的多条合理续写,捕捉受众对后续故事发展的期望分布。
- 从生成的续写文本中提取情感、心理主题、语义路径等特征,用以计算“期望”、“不确定性”(方差)和“惊讶度”(连续章节预期变化平方)。
- 该方法突破传统只能基于已观看内容建模的限制,定量刻画了受众对未来内容的前瞻性信念。
数据与样本特征 [page::8][page::9]
| 指标 | 平均值 | 标准差 | 最小值 | 最大值 |
|----------------|-------|-------|-------|--------|
| 章节字数(词) | 1,827 | 1,242 | 400 | 9,970 |
| 评论数 | 33 | 128 | 0 | 6,767 |
| 点赞数 | 117 | 280 | 0 | 4,285 |
| 阅读数 | 3,135 | 8,219 | 1 | 206,440|
| 续读率 | 0.96 | 0.33 | 0 | 31.25 |
| 评论率 | 0.05 | 0.22 | 0 | 6.03 |
| 点赞率 | 0.06 | 0.07 | 0 | 1.00 |
多特征集建模及贡献效果 [page::10][page::12][page::13]
- 采用三类特征:情感特征(情感价与激活度)、心理学主题(25维正向心理主题)、语义路径特征(速度、容量、迂回度)。
- 在预测投票、评论、续读率等不同指标上,加入基于想象故事的期望、不确定性、惊讶度特征后,模型解释力较仅用现实故事特征分别提升6%-50%不等,平均提升31%。
- 其中“期望”成分贡献最大,说明读者对故事未来走向的预期对参与行为影响显著。
情感特征回归洞察 [page::14]
- 节点:
- 较高的激活度(arousal)与更高的参与度正相关。
- 低价情绪(负向情绪)预期对应更高的动续阅读率,读者倾向于继续探索负面发展情节。
- 情感“惊讶”正向促进评论和投票,支持剧情逆转带来的用户关注提升。
- 机制启示:不同类型用户参与行为背后对应不同内容预期,推荐策略可针对活跃度和情绪走向设计差异化内容。
研究限制与未来展望 [page::13][page::15]
- 受限于文本内容,尚未覆盖视听等多模态叙事元素,未来可引入多模态LLM进一步丰富期望建模。
- LLM生成的想象内容可能存在题材偏见,与真实受众预期不完全一致,需结合更多实证校准。
- 建议未来研究探索模型的公平性、解偏方法,并针对不同内容类型开发专门化模型。
深度阅读
金融研究报告详尽分析报告
---
1. 元数据与概览
- 报告标题:《Modeling Story Expectations to Understand Engagement: A Generative Framework Using LLMs》
- 作者:Hortense Fong, George Gui
- 发布机构:未明确指示,但从文献引用及内容推断,属于学术研究领域,涉及营销科学、人工智能应用等
- 发布日期:2024年12月
- 研究主题:运用大型语言模型(LLMs)生成故事后续内容,基于生成的内容提取用户对故事预期、悬念和惊喜特征,进而分析读者的参与度(engagement)。关键词包含故事期待、用户参与、自然语言处理、大型语言模型生成、市场营销。
- 核心论点:
- 内容消费中的用户参与很大程度上受用户对故事未来发展的主观预期、兴趣不确定性和意料之外惊喜驱动。
- 市面已有方法多关注从现有内容直接提取特征,而忽略了“向前看的”用户预期建模,因难以在非结构化叙事文本中进行有效衡量。
- 本文提出一种新框架,利用预训练大型语言模型生成故事多个潜在后续版本,从而得到预期的分布,并结合经典内容分析手法量化期望、悬念(不确定性)、惊喜等特征。
- 该方法在超3万章节数据集上验证,能在经典特征工程基础上提升约31%的解释能力,且不同读者参与形式由不同组合的当前与预期特征驱动。
- 评级与目标价:无明确评级或定价,属于学术性技术方法创新与应用研究。
作者旨在表明:利用LLM可以创新地模拟用户对故事后续的预期,从而更精准刻画驱动用户活跃的心理因素,这对内容创作者和平台在营销策略、内容制作决策上具有重要价值。[page::0,1,2]
---
2. 逐节深度解读
2.1 引言与研究动机(1-2页)
- 主要内容:
- 细化用户参与(如继续阅读、评论、投票)背后的驱动因素,尤其强调“用户对故事未来发展的信念和预期”。
- 阐述传统内容分析多聚焦“当前已读内容”的特征,忽视前瞻预期,原因在于未找到好的方法在非结构化故事文本中建模和量化这些信念。
- 引入经济学理论中“消费者决策受未来预期影响”的观点,试图通过生成模型模拟用户信念分布,弥补文献的空缺。
- 作者推理与假设:
- 观众经历过大量故事,形成对故事发展不同走向的主观分布;LLM因训练于海量文本,能高准确度生成故事多种可能走向。
- 通过对这些生成走向抽象统计(期望、方差、变化)能映射用户预期、悬念和惊奇度。
- 关键数据点:
- 案例举例:基于第一章文本,LLM可生成多条后续情节分支,捕获故事走向的不确定性。
- 预测基础:
- 以生成的故事作为未来事件的分布模拟,获得统计特征,用作参与度预测的变量输入。
该部分奠定了基于LLM模拟用户故事预期的理论框架和技术路径基础。[page::1,2]
2.2 理论与文献回顾(3-4页)
- 主要内容:
- 汇总叙事理论经典文献(Campbell, Field等)及近现代自动特征提取研究(Eliashberg, Berger, Toubia团队)。
- 强调现有研究偏重对已发生内容特征量化,不足以覆盖用户“未见且带期待”的未来内容心理。
- 经济学中对消费者基于预期的决策行为模型(Rust, Erdem, Muth等)主要用于结构化数据,如价格、质量,不适合叙事文本。
- 先前对“悬念”和“惊讶”的数学定义(Ely等)及实证研究(Simonov等)针对较结构化指标的不足。
- LLM的出现弥补了这一缺口,能基于跨语境知识生成复杂故事走向,提高预期建模质量。
- 逻辑推演:
- 结合叙事、心理学与经济学洞见,利用LLM跨领域融合,为参与度建模带来质的飞跃。
- 关键观点:
- 现有研究碎片化,本文框架是首次尝试将LLM生成能力与消费者预期经济学模型整合。
本节明确研究定位,理论贡献及跨学科创新点。[page::3,4]
2.3 方法论详解(4-8页)
- 部分一:故事输入处理
- 解决上下文限制问题:通过递归摘要机制,一次输入故事摘要+当前章节,绕开LLM输入长度限制。
- 采用差异化prompt策略,确保摘要和章节内容客观不掺杂假设。
- 部分二:想象生成
- 利用LLM的条件概率建模能力,生成多(10)条故事续写的可能路径,模拟多样化用户未来预期。
- 具体prompt设计针对第1章和后续,包含故事完整背景及当前章节。
- 部分三:特征提取
- 传统预定义特征抽取技术(规则型VADER或深度学习)应用于生成各个续写文本,得到多样特征向量 $z{i t n}$。
- 统计工序:
- 期望(均值)$\mathbb{E}[z{i t n}]$
- 不确定性(方差)$\mathrm{Var}[z{i t n}]$,对应经济学中悬念意义
- 惊喜(期望差平方)$(\mathbb{E}[z{i t}] - \mathbb{E}[z_{i (t-1)}])^2$
- 部分四:参与度解释模型
- 将三类信念特征和实际章节特征结合,预测续读、评论、投票率等多维参与指标。
- 核心在比较只用已现内容特征vs加入预期特征的模型表现差别。
- 技术难点与创新:
- 利用递归摘要解决上下文长度限制,并配合细致分章节文本处理。
- 生成多条后续模拟不同想象空间,体现故事悬念及不确定性。
该方法为非结构化叙事文本建模观众预期提供了一套可行且细节完备的框架。[page::4,5,6,7,8]
2.4 数据集介绍与描述(8-9页)
- 来源:某大型在线故事发布与阅读平台,章节可获阅读数、评论数、投票数
- 基本内容:
- 包含1735本书、30,258章节,经多重数据清洗(处理非故事文本、过滤显性内容、语言过滤、章节数限制等)
- 利用GPT-4o-mini进行章节摘要生成,GPT-3.5-turbo进行续写生成,避免时间截点后的书籍训练数据泄露
- 参与指标定义:
- 续读率= 下一章节读数 / 当前章节读数
- 评论率= 评论数 / 当前章节读数
- 投票率= 投票数 / 当前章节读数
- 统计特征:
- 章节词数均值1827,阅读人数中位略偏高,续读率均值约0.96但最大值极端31.25,表明部分行为存在跳读或反复阅读
- 评论与投票参与度中等,最大值显示少数章节极受欢迎
该章节保障了方法验证的现实基础及样本数据的规模与合理性。[page::8,9]
2.5 应用实证与结果分析(9-14页)
- 预定义特征:
- 情绪特征(Valence正负性,Arousal激动程度)
- 心理主题(基于心理学积极主题,如成长、韧性、社交连接)
- 语义路径特征(节奏、容量、迂回性,表征故事结构与进展)
- 实证假设:
- 现有特征对参与度有显著解释力时,应用同一特征抽取到生成故事(想象延续)特征上应进一步提升解释力
- 关键模型设计:
- 线性回归模型,依次加入:
1. 控制变量(章节固定效应、词数)
2. 真实故事特征
3. 想象故事的期望、不确定和惊喜特征
- 结果亮点:
- 表2数据显示,加入真实故事特征后调整$R^{2}$提升显著,进一步加入想象故事特征后,调整$R^{2}$提升6%-50%不等,平均提升31%
- 表3显示,想象故事贡献主要由“期望”成分驱动,悬念(不确定性)和惊喜贡献较小但在部分指标和特征集上有陪衬作用
- 回归系数解读(表4):
- 高激动性(Arousal)与更高参与度(继续读、评论、投票)相关
- 虽然负面情绪章节可能激发更高继续阅读,但用户倾向于在正面内容上发表评论和互动
- 故事预期中负面情绪更强,反而关联更高参与度,且这一预期相比当前章节的情绪指标更具解释力
- 惊喜(情绪valence的突然变化)促使更高参与度,契合“故事反转”相关研究结果
- 策略启示:
- 互动型参与(评论、投票)与持续消费(续读)对内容情绪预期表达不同需求,内容推荐系统可据此推导差异化策略,如先推送积极激动内容以促进评论产生社群感,再推负面内容维系续读
- 总结:
- 预期建模揭示了故事未来情绪轨迹对用户决策的深远影响,扩展了传统参与度分析范式。
此节实证聚焦于框架有效性的定量验证和基于估计模型洞察出对营销内容策略的洞见。[page::9,10,11,12,13,14]
2.6 局限性讨论(13-15页)
- 主要限制:
- 生成模型模拟的用户预期不一定完全符合实际读者心理,存在刻板化、刻意重复常见套路等偏差
- 经济学中预期建模用于有明确客观分布条件,此处则面对高度主观、非量化的叙事内容,模型仍为近似
- 仅处理文本数据,忽视视听、图象等对影视内容用户参与的重要影响,限制跨媒体推广价值
- LLM偏见和训练数据不均衡可能导致某些类型故事的预期模拟不准确
- 潜在缓解:
- 基于已有经济学理论,强调模型的“可实施性”及“起点”价值,而非完美复刻人类思维过程
- 建议未来研究探索多模态LLM结合视听元素、更公平训练策略、专门针对细分类别内容研发特化模型
- 总结:
- 本文框架作为认知心理模拟的一种可实现的桥梁,虽有可改进空间,但已在解释力上表现出一定实用价值
该部分表明作者对方法的客观评价和学术态度,提供未来改进方向。[page::13,15]
2.7 结论(15页)
- 总结框架价值:
- 提出利用LLM生成故事多种未来走向模拟用户预期的定量分析方法
- 将主观预期概念引入非结构化叙事内容参与解释,弥补先前研究空白
- 提升传统特征工程解释能力(平均提升31%)
- 实际意义:
- 为内容生产者、平台和营销者理解和激发用户参与提供新工具
- 支撑未来基于用户预期构建的更智能内容推荐与设计
- 展望:
- 期望本文奠定进一步探索用户预期对消费行为影响的研究基础
结语明确了研究的理论和实践贡献,以及未来应用潜力。[page::15]
---
3. 图表深度解读
3.1 图1:方法概览流程图(5页)

- 描述:流程图显示研究方法四大步骤:
1. 文本输入(章节及其摘要)
2. 预训练LLM生成多条“想象”故事续写
3. 从这些想象故事提取期望、不确定性、惊喜特征
4. 用上述特征解释用户参与度
- 解读:
- 清晰将“内容—想象—特征—参与”四大环节语义串联
- 强调LLM为核心工具,支撑故事多向展开的生成能力
- 流程体现作者设计的迭代、补充现有内容分析的新思路,突破单一内容静态分析的限制
- 意义:
- 图形化呈现研究主框架,便于理解整体步骤和因果关系
3.2 表1:数据集基本统计(9页)
| 指标 | 均值 | 标准差 | 最小值 | 最大值 |
|----------------------|------|------|-----|--------|
| 单章节单词数 | 1827 | 1242 | 400 | 9970 |
| 评论数 | 33 | 128 | 0 | 6767 |
| 投票数 | 117 | 280 | 0 | 4285 |
| 阅读数 | 3135 | 8219 | 1 | 206440 |
| 续读率 | 0.96 | 0.33 | 0 | 31.25 |
| 评论率 | 0.05 | 0.22 | 0 | 6.03 |
| 投票率 | 0.06 | 0.07 | 0 | 1.00 |
- 解读:
- 章节长度均值低于传统书籍(3000-4000字),反映在线媒体短篇特性
- 高标准差说明各章节流行度差异大,特别是阅读数峰值巨大
- 续读率可大于1,暗示多样用户行为(跳读、复读、分享)
- 评论与投票比例均较低、但具备有效区分能力,有利建模
- 联系文本:
- 表明数据集具有真实并复杂用户行为,为模型执行提供丰富信号
- 数据清洗保障数据质量及多样性
- 局限与提示:
- 极端值潜在异常需在模型中适当处理,防止误导分析
3.3 表2:模型$R^2$提升验证(12页)
| 特征集 | 基线模型 | 加真实特征 | 加想象特征 | 相对提升 |
|----------------|-------|--------|--------|-------|
| 投票率 | | | | |
| 情绪 | 1.66 | 2.44 | 2.79 | 44% |
| 心理主题 | 1.66 | 5.88 | 7.47 | 38% |
| 语义路径 | 1.66 | 2.77 | 2.98 | 19% |
| 评论率 | | | | |
| 情绪 | 0.15 | 0.33 | 0.42 | 50% |
| 心理主题 | 0.15 | 2.24 | 2.95 | 33% |
| 语义路径 | 0.15 | 0.51 | 0.66 | 41% |
| 续读率 | | | | |
| 情绪 | 16.94 | 17.08 | 17.10 | 11% |
| 心理主题 | 16.94 | 17.34 | 17.48 | 36% |
| 语义路径 | 16.94 | 17.56 | 17.60 | 6% |
- 解读:
- 加入真实故事特征本身就大幅提升模型性能,证实了前文提及特征对参与度的重要性
- 在此基础上,基于LLM生成的想象故事的期望等信念特征依然带来显著进一步提升,最大提升可达50%,平均约31%
- 心理主题特征结合预期对续读率提升尤为显著,暗示角色发展预期对持续参与关键
- 逻辑与意义:
- 证明“未来预期”特征是对传统“现实内容”特征的有效补充,验证了理论假设
- 显示出独创价值:
- 反映通过模拟多元未来走向能捕捉更丰富用户心理动机,破解仅基于已读文本的局限
3.4 表3:相对提升分解(13页)
| 特征集 | 结果变量 | 总体提升 | 惊喜贡献 | 期望贡献 | 不确定贡献 |
|--------|----------|-------|------|-------|-------|
| 情绪 | 投票 | 44.5% | -0.1%| 45.2% | -0.7% |
| 情绪 | 评论 | 49.8% | 8.2% | 39.6% | 4.8% |
| 情绪 | 续读率 | 11.5% | 2.8% | 7.6% | -1.5% |
| 心理主题 | 投票 | 37.8% | 5.3% | 33.1% | 20.3% |
| 心理主题 | 评论 | 33.5% | 3.9% | 30.3% | 8.8% |
| 心理主题 | 续读率 | 36.5% | 3.8% | 43.0% | 20.7% |
| 语义路径 | 投票 | 18.6% | -0.5%| 13.1% | 5.3% |
| 语义路径 | 评论 | 41.4% | 0.4% | 43.0% | -0.1% |
| 语义路径 | 续读率 | 5.7% | 6.2% | -0.0% | -0.3% |
- 解析:
- 期望特征贡献最大,稳步推动模型提升,验证不同用户对“预测未来情节平均路径”响应积极
- 惊喜(变化),在部分情绪及心理主题特征中表现温和正贡献,支持理论中故事反转能刺激兴趣的观点
- 不确定贡献则表现多样,心理主题对续读不确定性贡献明显,有助理解悬念在维持关注中的作用
- 含义:
- 多维信念特征应综合考虑,不同参与类别重视程度存在差异,为个性化内容策略提供理论依据
3.5 表4:情绪特征回归结果(14页)
- 主要回归结果摘要:
| 自变量 | 投票率系数(显著性) | 评论率系数(显著性) | 续读率系数(显著性) |
|-----------------|-----------------|-----------------|-----------------|
| 章节词数(对数) | 0.009 | 0.017 | -0.009 |
| 当前章节情绪Valence | -0.0003 | 0.004 | -0.003 |
| 当前章节情绪Arousal | 0.002 | 0.008 | 0.001 |
| 过去章节情绪Valence | -0.004 | 0.004 | 0.005 |
| 过去章节情绪Arousal | 0.005 | 0.005 | 0.002 |
| Valence惊喜(Surprise)| 0.009 | 0.010 | 0.009 |
| Valence期望(Expectation)| -0.018 | -0.026 | -0.009 |
- 词数对投票、评论正向显著,但对续读负向,表明章节长短影响参与类型差异
- 当前及过去章节激动度(Arousal)普遍正向推动互动型参与(投票、评论)
- 负面的情绪valence与更高续读率正相关,而正向情绪则倾向于更多评论互动。负向情绪预期尤为显著影响参与度,表明观众可能对故事阴暗走向有更强关注
- Valence情绪惊喜显著提升参与,契合故事反转情绪激发读者兴趣模型
- 预期情绪的影响大于同期文本自身,凸显本文特色“前瞻预期”贡献
- 绝大部分回归系数在统计上达到1%-5%意义水平,具高度可信度
---
4. 估值分析
本报告属于学术研究,不涉及直接企业估值或财务指标预测,因此没有DCF、市盈率等估值模型应用,也无目标价设定。本文的“估值”意义在于:
- 对各种特征工程模型的解释力进行量化评估,衡量引入生成的故事预期特征后对用户参与解释能力的边际提升。
- 使用调整$R^2$作为模型拟合优度指标,通过分组变量递进纳入评估不同特征组贡献。
- 体现出预期特征平均提升于31%的相对解释优化价值。
---
5. 风险因素评估
- LLM生成的故事续写与现实用户心理预期存在偏差,导致特征误读和参与度预测偏差
- 本研究仅使用文本数据,缺乏视频、音频等多媒体信息,可能限制对影视内容用户行为的预测能力
- LLM潜在训练数据偏倚可能使某些类型、风格或题材内容预期模拟失真
- 作者提到部分书籍、章节因清理规则或训练截止时间被剔除,可能导致部分数据分布不均
- 选取训练截止时间后出版内容减少训练数据泄露风险
- 未来研究建议开发更公平、多模态的训练集和模型调优以缓解偏见与单一模态限制
---
6. 批判性视角与细微差别
- 方法始终基于LLM强大但有限的文本生成能力,忽视人类实际感知差异、心理丰富性及多样的认知偏好
- 使用递归摘要虽提升上下文覆盖但潜在引入信息丢失或误差叠加问题,影响续写准确性
- 生成的多条续写作为预期分布近似,可能存在高频套路重复,虚假多样性影响整体特征质量
- 参与度仅以部分指标量化,未能覆盖消费所有维度,如用户停留时间、分享深度、情感反馈等
- 文本长度控制对结果的潜在隐性影响未被充分探讨
- 线性回归模型简化了参与度与特征间的非线性复杂关系和交互效应,未来可尝试更复杂模型提升拟合
整体来看,报告保持学术谨慎,理论与实践结合合理,但认知复杂性的抽象化处理限制了对高度多样化人类行为的完美刻画。
---
7. 结论性综合
本文开创性地结合经济学消费者预期理论与先进自然语言生成技术(大规模预训练语言模型LLM),提出一种全新框架来模拟和量化用户对故事未来发展的多样期待及其不确定性和惊喜感。通过生成多条故事潜在后续文本,提取多层次情绪、心理主题、语义路径等多维特征,计算期望、方差和期望变化,向参与度建模中引入动态的前瞻性认知视角。
实证应用于超过3万阶段的在线故事数据,显示该方法能显著提升经典基于现有文本特征的参与度解释力——平均边际提升31%。进一步回归分析揭示不同参与形式(续读、评论、投票)对情绪激动度、负面情绪预期、情绪惊喜的不同敏感度,验证悬念和故事反转对驱动用户行为的重要性。这些发现不仅补充了内容营销的理论认知,也为平台算法推荐和内容创作提供策略支持。
报告充分考虑了LLM建模局限,如偏见、文本单模态限制及预期模拟误差,提出未来多模态扩展和去偏领域特化模型的研究方向,体现了科学严谨性与现实适应性的平衡。
综上,本文对非结构化叙事内容中用户预期的系统建模展开了开创性探索,其方法论及实证发现对理解和引导数字媒体用户行为具有重要理论与实际意义,开辟了内容经济学与人工智能结合的新篇章。[page::0-15]
---
总体评价
本报告内容丰富,结构逻辑清晰,紧密结合理论与数据,展现了如何利用先进语言模型技术突破传统消费者行为建模瓶颈,是内容营销与人工智能交叉领域的重要参考。通过精细的特征设计和多维度参与指标建模,实证成果充分体现新框架的有效性与合理性,具有较强的学术与实务推广价值。
---