基于企业经营业务相似度的市场信息摩擦与股票收益联动研究
创建于 更新于
摘要
本报告基于上市公司年报文本分析构建企业经营业务相似度指标,通过余弦相似度测度企业间业务关联及竞争度,揭示高竞争度公司对应更高股价波动风险[pidx::0][pidx::9][pidx::10]。进一步创新提出股票收益联动因子𝑳𝒊𝒏𝒌𝒂𝒈𝒆,捕捉市场信息摩擦导致的动量溢出效应,策略年化收益达20%以上,且在低关注度和业务复杂度高的板块表现更优[pidx::12][pidx::14][pidx::19][pidx::20]。报告还发现投资者存在行业分类锚定效应,低估跨行业相似业务公司的联动影响,并基于业务相似度改进因子表现,实现风险调整收益的提升,具备显著投资价值和理论贡献[pidx::17][pidx::18][pidx::21]。
速读内容
- 企业经营业务相似度测度创新方法 [pidx::3][pidx::4][pidx::5]:

- 采用财报附注文本中“经营范围”等关键词,结合正则表达式清洗,构建公司业务词汇向量,基于词频构造二元词向量。
- 以余弦相似度衡量企业间业务相似度,取值0至1,1表示业务完全一致。
- 基于相似度矩阵进行公司层次聚类,发现文本聚类与传统行业分类存在差异,能更全面揭示公司间实际竞争关系。
- 业务竞争度因子揭示股票风险因子效应 [pidx::9][pidx::10]:


- 业务竞争度定义为企业与其他所有公司业务相似度之和,反映市场中业务相似企业的竞争强度。
- 该因子与未来股票波动存在正相关,预测波动率能力显著,捕捉股价风险溢价。
- 业务收益联动因子𝑳𝒊𝒏𝒌𝒂𝒈𝒆构建及表现 [pidx::12][pidx::13][pidx::14]:



- 结合业务相似度、月度收益、成交量和市值加权,构建月度股票收益联动因子,反映业务关联公司间的动量溢出。
- 因子IC均值6.45%,ICIR1.68,预测效力稳定,呈现良好分组收益单调性。
- 多空组合年化收益20.68%,超越中证500基准15.12%,双边千分之四交易成本下TOP100组合年化19.24%收益。
- 业务联动因子行业与风格特征 [pidx::15][pidx::16]:

- 持仓以基础化工、医药、机械等跨行业重叠及业务复杂度高行业为主。
- 组合表现出中小市值、高流动性特征,反映中小市值股票易受信息摩擦影响。
- 量化策略的创新提升方向与启示 [pidx::17][pidx::18][pidx::19][pidx::20]:



- 确定投资者存在对行业分类锚定效应,市场更易忽略非同行业但业务相似公司的联动影响。
- 构建业务复杂度因子(跨行业业务相似度差异),有效提升𝑳𝒊𝒏𝒌𝒂𝒈𝒆因子的多头与多空收益表现,年化收益优于未调整版本。
- 低关注度股票的𝑳𝒊𝒏𝒌𝒂𝒈𝒆策略表现尤佳,信息不对称更明显,年化扣费收益达26.8%,信息比率0.95。
- 高关注度股票策略表现平平,证明策略对信息摩擦和投资者有限注意力的较好捕捉。
- 因子风险与未来展望 [pidx::21][pidx::22]:
- 因子基于年报文本,存在业务变更时滞和表述差异带来的误差风险。
- 外部环境变化可能导致量化策略失效。
- 未来计划融入TF-IDF加权以及业务词典统一,进一步提高业务相似度计算精度和策略效果。
深度阅读
量化专题报告深度分析:基于年报文本分析的企业业务相似度与股票收益联动效果研究
---
1. 元数据与报告概览
报告标题: 《量化专题报告》
作者及联系方式: 叶尔乐,执业证书 S0100522110002,邮箱 yeerle@mszq.com
发布机构: 民生证券研究院
发布日期: 未明确具体日,但相关引用多集中于2023年初至年中
研究主题: 基于年报文本分析,构建企业业务相似度指标,进而挖掘隐含的企业竞争关系及其对股票风险与收益的影响,并提出动量溢出收益因子模型。
核心论点及结论摘要:
- 传统行业分类无法准确反映企业间多维度竞争关系,本文提出基于财报附注文本的业务相似度(SIM)计算方法,克服行业分类局限。
- 基于SIM构造的业务竞争度因子(Centrality)能够有效预测股票波动性及一定程度的风险溢价。
- 构建相似业务的股价收益联动因子(Linkage),捕捉市场信息摩擦导致的动量补涨效应,表现出较强的选股能力和超额收益。
- 投资者对同行业公司的影响更敏感,往往忽略不同业但业务相似公司的联动效应,表明市场存在“锚定效应”。
- 业务复杂度和投资者有限注意力都会加剧市场信息摩擦,业务复杂度高和低关注度的股票表现出更强的收益联动效应。
- 风险提示包括业务变更时滞,文本表述差异带来的相似度估计风险及外部环境变化导致因子失效风险。
---
2. 逐节详解
2.1 公司业务中隐含的竞争关系
2.1.1 传统行业分类难以全面定义
报告指出,企业业务多元且跨行业竞争普遍,传统按照主营行业划分的分类方法常无法真实反映企业的竞争关系。以特变电工和中天科技为例,前者归入输电/电气设备板块,后者归入通信设备板块,但两者均涉及输变电及电线电缆业务,存在直接竞争关系(图1、图2、图3)。这种情况在多元经营公司中尤为普遍,企业不仅与同行业公司竞争,也与主营业务重叠的非同行业内公司有竞争关系,这种隐含竞争关系无法通过传统行业划分准确刻画。[pidx::2][pidx::3]
2.1.2 利用年报文本分析计算业务相似度
鉴于监管要求上市公司年报附注必须披露详细经营业务,公司业务文本具有客观完整特点,是研究企业业务范围和相似度理想数据源。作者设计了基于关键业务描述关键词的文本抓取方法,结合正则表达式剔除排除性表述(如“不包括某业务”),并选取最新的业务范围表述,确保数据准确代表当前经营范围(见图4流程)。随后使用中文分词工具(Jieba)切词后构建业务关键词词向量,向量元素为0/1表征某业务是否包含于该公司。
业务相似度SIM计算采用基于向量余弦相似度公式,即两公司业务关键词向量夹角的余弦值。SIM值范围在0(业务完全不同)到1(业务完全一致)之间,能量化公司间业务重叠程度,优于传统行业划分的二维分类,能捕捉多元业务及细分竞争关系。[pidx::3][pidx::4]
2.1.3 基于SIM的层次聚类
作者进一步通过层次聚类分析(HCA)方法,将基于业务相似度计算的SIM矩阵转化为公司簇分类,采用AGNES算法合并最相似公司,寻找合适簇数量(40簇时轮廓系数最大,数值0.16,聚类效果较佳,见图7、图8)。分析发现聚类结果与中信一级行业分类存在明显差异。部分业务单一公司与传统行业对应良好,业务多元公司如机械、电力新能源跨越多个行业簇,显示文本聚类能更真实刻画业务内在关系(见图9、图10话语关键词)。[pidx::5][pidx::6][pidx::7]
---
2.2 经营业务竞争度刻画
2.2.1 业务竞争度及其风险机理
基于熊彼特创新理论与产业组织理论,竞争激烈企业对应更大创新风险、破产风险及风险传递风险。作者认为竞争强度衡量公司所面临的业务竞争环境及其经营风险。传统基于行业分类难以刻画细分业务竞争水平,SIM业务相似度可重构更直接的业务竞争度。
业务竞争度定义为公司与全体其他公司业务相似度之和:
$$
Centrality{i,t} = \sum{j=1}^n SIM{i,j,t}
$$
该指标越大,说明市场中与公司业务相似度高、相似公司数量越多,竞争越激烈。竞争更激烈意味着经营风险更高,其理论正相关于股票波动及潜在风险溢价(图11)。[pidx::8][pidx::9]
2.2.2 业务竞争度与股票波动/收益的相关性
实证显示Centrality因子与下一期股票波动率呈持续正相关,但与收益率的相关性较弱且不稳定(2012、13、17、19年出现负相关)(图12)。此外,Centrality构建的多空组合2011-2023年累计收益30.78%,最大回撤-5.4%,年化信息比率0.6,说明因子能一定程度预测股票风险水平和溢价(图13)。[pidx::10]
---
2.3 市场信息摩擦下的股票收益联动效应
2.3.1 信息摩擦原理及动量溢出机制
由于市场投资者的认知资源有限和决策偏差,信息传播存在摩擦,导致价格无法快速充分反映全部信息,产生短暂高估或低估,随时间推进信息逐渐被吸收,股价缓慢回归。基于此,业务相似度高公司间股价存在滞后动量溢出,形成收益联动效应(图14、图15)。[pidx::11][pidx::12]
2.3.2 Linkage因子构建
Linkage因子基于业务相似度加权同行收益率与自身收益率之差,反映相似业务公司当期收益率超越目标公司程度,值越大未来补涨概率越高:
$$
Linkage{i,t} = \frac{\sumj SIM{i,j,t} \times Ret{j,t}}{\sumj SIM{i,j,t}} - Ret{i,t}
$$
为避免小市值与游资炒作影响,引入市值和成交金额加权:
$$
Linkage{i,t} = \frac{\sumj SIM{i,j,t} \times VOL{j,t} \times EV{j,t} \times Ret{j,t}}{\sumj SIM{i,j,t} \times VOL{j,t} \times EV{j,t}} - Ret{i,t}
$$
根据该定义,Linkage捕捉市场中业务相似度公司间的收益补涨效应(图16)。[pidx::12][pidx::13]
2.3.3 Linkage因子的预测能力及表现
Linkage因子截面预测能力较强,IC均值6.45%,IC信息比率1.68,超过70%的正IC比例,且表现稳定(图17)。按分组衡量,Linkage表现出良好单调收益,最高组年化收益17.36%,最低组负收益,采用多空组合,前后累计超额收益达到20.68%、相对于中证500超额15.12%,最大回撤呈合理水平(图18、图19、图20)。该因子选股策略经市值和行业中性调整,仍独立于常见量价、基本面因子,且与动量因子呈负相关(图23)。[pidx::13][pidx::14][pidx::15]
2.3.4 行业与风格偏好
Linkage选股倾向于业务复杂、跨行业程度较高的基础化工、医药、机械等行业(图24)。风格上偏好中小盘、高流动性股票,这类股票更易受到市场信息摩擦影响和投资者注意力波动(图25)。策略容量约为10亿元,适度可行。[pidx::15][pidx::16]
---
2.4 股价联动因子绩效提升路径思考
2.4.1 投资者非理性行为及认知限制
投资者信息处理能力有限、注意力受限、锚定偏差等因素导致信息摩擦加剧。投资者往往过于依赖传统行业分类,忽略不同行业间相似业务的重要信息(图26)。[pidx::17]
2.4.2 同行与业务相似收益联动对比
通过比较同行(中信一级行业)及基于SIM的相似业务联动因子发现,市场对同行业公司的消息影响更为关注,忽视跨行业相似业务带来的联动。实证中,做多相似业务收益联动、做空同行收益联动组合取得稳健超额收益及信息比率,说明业务相似度因子补充了行业分类的不足(图27、图28)。[pidx::18][pidx::19]
2.4.3 业务复杂度对因子表现的提升
定义业务复杂度因子complexity为目标公司跨行业业务相似度的度量,业务复杂度越高,投资者难以充分处理相关信息,动量溢出效应越强:
$$
complexity{i,t} = \frac{\sum{j=1}^n SIM{i,j,t}}{n} - \frac{\sum{k=1}^m SIM{i,k,t}}{m}
$$
基于complexity修正Linkage,构建LinkageComplex改善因子表现。实证显示,LinkageComplex因子多空组合年化收益增加至21.8%,且分层表现明显优于原Linkage(图29、图30)。[pidx::19][pidx::20]
2.4.4 投资者有限注意力与股票关注度
将市场股票按流动性分层构建“低关注组合”,在低关注度股票中应用Linkage策略获得显著超额收益(年化26.8%,超额24%),信息比率0.95。高关注度组合表现平平,显示低关注度股票中信息摩擦及联动效应更为显著,Linkage因子在此类股票池的选股能力更强(图31-34)。低关注度组合策略容量约7.47亿元,略低于原组合容量。[pidx::20]
---
2.5 总结与风险提示
2.5.1 总结
- 利用年报附注文本分析构建企业业务相似度,突破传统行业分类限制,更真实反映企业竞争关系。
- 基于业务相似度构造的竞争度因子能有效预测股票风险,收益联动因子有效捕获因市场信息摩擦带来的动量溢出收益。
- 投资者存在行业分类锚定,忽视跨行业业务相似性影响。
- 业务复杂度和投资者注意力有限进一步加剧信息摩擦效应。
- 因子表现稳定,且在低关注股票池中尤为突出,具备较强实用价值。
- 未来研究方向包括引入TF-IDF权重提升相似度计算准确性,构建业务字典统一表达,减少文本噪声,更精准量化业务相似关系。[pidx::21]
2.5.2 风险提示
- 因子基于上一期年报文本计算,存在业务变更滞后风险。
- 不同公司业务表述存在差异,可能导致相似度估计误差。
- 宏观和行业环境变化可能导致量化策略失效。
- 因子选股收益能否持续需进一步验证。[pidx::22]
---
3. 图表解析
- 图1-3:通过特变电工与中天科技输变电业务的对比图,形象展示了非同行业分类的两家公司实际业务上存在交叉竞争。特变电工与中天科技在传统行业分类中属于不同板块,但实质上业务布局存在显著重合。该对比深化了报告提出传统行业分类不足的核心论点。[pidx::2][pidx::3]
- 图4-5:阐释了从财报文本提取关键词建词向量与基于余弦相似度构建业务相似度矩阵的全过程。展示方法科学严谨,并结合具体举例,使技术过程透明可理解。[pidx::4][pidx::5]
- 图6-8:分别展示轮廓系数计算原理、不同簇划分下的轮廓系数变化及最终40簇的树状聚类图。说明报告对聚类质量的量化检验过程,优化公司划分簇数,确保聚类结果合理。[pidx::6]
- 图9-10:40簇划分下与中信一级行业的重合度及每簇Top5关键词,说明文本聚类提供了比传统行业更精细化的公司划分,且词汇分布清晰指示各簇业务特征。[pidx::7]
- 图11:业务竞争度与更高风险关联的理论逻辑图,具视觉冲击力地解释创新风险、破产风险及风险传递机制,支撑因子构建动因。[pidx::9]
- 图12-13:Centrality与波动率和收益率的IC值年份分布柱状图及多空组合净值与最大回撤,实证支持业务竞争度作为风险因子的有效性。[pidx::10]
- 图14:相似业务股票动量溢出的示意图,直观展示动量溢出的过程与意义,为后续因子定义的理论基础。[pidx::11]
- 图15:信息摩擦的成因示意图,说明投资者过度自信、情绪和认知限制如何导致市场信息传递不完全,影响资产价格形成,深化理论框架。[pidx::12]
- 图16-22:Linkage因子的时序表现(中位数、IC序列、分组收益、多空净值、重要股票组合收益与超额表现),全面展示因子稳健性和有效性,图22显示TOP100组合净值大幅跑赢中证500,表明因子可实际应用产出超额收益。[pidx::13][pidx::14][pidx::15]
- 图23:Linkage因子与常见因子的相关性分析,表明Linkage提供了相对独立的选股信息,与动量、量价和基本面因子均呈弱相关,说明其潜在补充价值。[pidx::15]
- 图24-25:行业与风格暴露分析,显示Linkage选股多集中在多行业交叉、业务复杂的行业(如基础化工、医药、机械),偏好中小市值和高流动性。这与理论中的信息摩擦逻辑相符。[pidx::15][pidx::16]
- 图26:非理性行为影响因素示意图,从内在和外在认知因素角度为市场信息摩擦提供理论框架支撑,是后续因子改进的基石。[pidx::17]
- 图27-28:同行收益联动与业务相似收益联动对比,显示业务相似度因子更强,市场更易忽略非同行的业务相似公司收益联动,体现投资者的锚定偏差。[pidx::18][pidx::19]
- 图29-30:业务复杂度修正后的LinkageComplex因子表现改善,多空组合收益率及分层收益曲线显示该改进因子有明显价值提升,增强了原因子的投资效果。[pidx::19][pidx::20]
- 图31-34:低关注度与高关注度股票池中Linkage因子的表现差异,低关注度股票组合收益显著优于基准且胜出高关注度股票组合,验证了有限注意力导致的信息摩擦差异。分组成果保持良好单调性,反映因子有效捕捉特定市场异常。[pidx::20]
---
4. 估值分析
本报告主要围绕因子构建及其策略表现展开,没有涉及传统意义上公司的现金流折现、可比公司法等估值体系,而是通过实证金融方法,结合文本处理技术,创新性地提出了反映业务相似度及其在股票表现中的应用。因子本身通过量价收益角度进行动态“估值”,通过IC、信息比率、多空组合收益率等量化指标衡量因子效能,无涉及DCF等经典估值模型。
---
5. 风险因素评估
报告明确提示了三类核心风险:
- 业务变更滞后风险:因子基于上一期年报文本,若公司业务调整快速,已有因子描述滞后,导致相似度计算及因子有效性下降。
2. 文本表达差异风险:不同公司对同一业务有多样描述,未标准化可能造成因子计算中相似度误差,降低因子准确性。
- 宏观及行情风险:外部环境大幅变化可能导致策略失效,量化因子表现不确定。
报告未明确提及缓解措施,投资需关注动态调仓及持续跟踪因子表现。同时,因子策略更多依赖于静态业务文本,快速业务变革可能会带来策略适用性问题。
---
6. 批判性视角与细微差别
- 本报告提出的基于财报文本的业务相似度计算方法创新性较强,在多元化企业环境中优于传统行业分类,尤其适合覆盖跨行业竞争复杂的市场。但文本处理精度对后续分析影响巨大,报告提及未来考虑TF-IDF和业务字典建设,初期版本仍有改进空间。
- 余弦相似度基于词袋模型,不考虑业务关键词权重差异及语义上下文,对多义词、业务层级结构的捕捉有限,可能影响相似度准确性。
- 因子构造基于上一期年报,存在业务信息时滞,可能影响动态变化充分反映。
- 因子预测收益稳定且优于部分传统因子,但2017、2020年表现不佳,提示因子存在周期性风险,受市场阶段影响较大。
- 将投资者锚定效应与有限注意力纳入因子改进框架,加强了理论联系,具有实证支持,但投资者注意力的量化指标及其与策略表现的机制尚可进一步细化,为未来研究点。
- 报告对风险提示较为简洁,缺少风险应对措施,此外实证数据虽充分,但公开信息限制及外部验证不足可能限制广泛适用。
---
7. 结论性综合
本报告通过对上市公司财务年报业务文本的深度挖掘,构建了以文本分析为核心的企业业务相似度指标SIM,既突破了传统行业分类在多元化业务覆盖上的局限,也为进一步量化企业间竞争关系和市场联动提供了创新工具。基于SIM构建的业务竞争度因子Centrality有效捕捉企业所处市场的竞争风险,并与股票波动率呈显著正相关。更重要的是,基于该指标的相似业务收益联动因子(Linkage)成功揭示了市场信息传播摩擦造成的动量溢出效应,显著提升了股票择时的预测能力和收益表现。
实证分析表明,市场对业务相似但不同行业公司之间的收益联动效应存在显著低估,投资者对传统行业分类的锚定效应导致信息利用不足。同时,业务复杂度及投资者的有限注意力加剧了信息摩擦,导致复杂业务及低关注度股票收益联动效应更为突出。相应改进的LinkageComplex因子和低流动性股票池中应用Linkage策略均实现超额收益提升,展示策略的实战潜力。
图表深度展现了从文本构建、相似度计算、层次聚类、因子构造与多维性能验证的完整链条,数据充分支撑理论与结论。报告提出未来可通过引入TF-IDF、统一业务字典等手段进一步提升业务相似度的准确性,增强因子稳定性和有效性。
风险提示中明确了业务时滞、文本表述多样性和外部变化带来的策略局限性,提醒用户理性应用此因子策略。
总体来看,报告为量化投资研究中企业非数字文本信息的利用提供了有价值的范例和开拓方向,具备较强的学术创新性和实用意义,适合量化投资研究员及策略开发者深入参考。
---
重要图片索引(部分图片示意)
中天科技输变电业务示意
-

词向量构建流程示意图
-

轮廓系数曲线与聚类优化
-

相似业务股票动量溢出示意
-

Linkage多空组合净值表现
-

Linkage_Complex改进因子表现
-

---
结语
本报告系统地从文本处理技术、企业经营信息解构及量化因子构建三方面展开,创新性地推出了基于企业财报文本挖掘的相似度财务因子,对于捕捉企业间竞争风险与信息传递中存在的市场摩擦具有显著意义。报告不仅为学术界提供了新的研究思路,也为量化投资实务开启了新方向。投资者和研究员应综合考虑业务文本异构性及动态变化的风险,在多维度因子体系中合理配置该类因子,以期实现稳定超额收益。
本分析以客观中立视角深入解读了报告的理论逻辑、方法框架、数据支撑及实证效果,确保对全部重要章节和图表均进行详尽解读,为决策和后续研究提供充分、严谨的依据。[pidx::0][pidx::21][pidx::22]