AI 因子挖掘

比赛时间: -

深挖高质量因子,传统与 AI 双轨并行

主办方:BigAlpha

比赛介绍

## 赛事介绍 ### BigAlpha 全球联赛 **BigAlpha** 是 BigQuant(宽邦科技)面向全球高校青年人才打造的年度 AI 量化投研赛事 IP,连接高校、学生、量化机构与 AI 金融实践场景。依托 BigQuant AI 投研平台,赛事通过真实数据、开放赛题与专业评审,发现具备 AI 投研能力、量化建模能力与策略创新能力的新一代金融科技人才。 BigAlpha 2026 在全球同步开放三大赛事,参赛者可根据自身背景与兴趣自由选择: | 赛道 | 适合人群 | 链接 | |---|---|---| | **AI 因子挖掘** | 金融工程、量化、数学、统计方向学生 | [AI 因子挖掘](https://bigquant.com/square/competition/76ad3f56-ec2b-431a-890e-139a7f4bbcba) | | **端到端大模型** | AI、CS、数据科学、金融科技方向学生 | [端到端大模型](https://bigquant.com/square/competition/523f9302-5b4b-42bd-bce1-f232e7c74316) | | **AI 开放创新** | 跨学科团队、创新创业团队 | [AI 开放创新](https://bigquant.com/square/competition/63dd885c-2488-4efd-9c61-9e3a536f172c) | 本文档介绍的是其中的 **AI 因子挖掘** 赛事。 ### 关于 BigQuant BigQuant 是国内领先的 AI 量化投资平台,使命是 "Democratize AI to empower investors"——让 AI 普惠每一位投资者。作为行业内首个将 AI 技术系统性应用于投资领域的平台级产品,BigQuant 把机器学习、深度学习等前沿 AI 技术与量化投资深度融合,为个人 Quant、研究机构、券商及资管机构提供从数据、研究、回测到实盘的一站式解决方案,目前已被多家头部金融机构采用为量化研究与投资决策的基础平台。 平台核心能力涵盖四个层面: * **数据底座**:PB 级标准金融数据 + 新型另类数据,覆盖行情、财务、舆情、产业链等多维度,并提供 PIT 处理、跨频率对齐等基础设施。 * **因子与算法**:内置 2000+ 基础因子库,支持表达式引擎、UDF、AI 自动化因子挖掘等多种构建方式;集成 AutoML、超参寻优、滚动训练、组合优化、归因分析等量化研发组件。 * **研发环境**:DAI 数据引擎提供高性能因子计算(速度更快、内存占用更低);模块化可视化开发与 Python / Notebook 无缝集成,兼顾低门槛与灵活性。 * **生态与落地**:策略源码库、券商研报、量化学院培训体系、模拟与实盘对接,构建从学习到落地的完整闭环。 本赛道基于 BigQuant 平台的真实数据与研发环境举办,参赛者将直接使用与机构客户一致的工具链完成因子挖掘与提交。 ### 为什么是因子挖掘 在现代量化投资领域,阿尔法因子(Alpha Factor)是获取超额收益的核心。一个有效的因子,能够从海量、嘈杂的市场数据中精准预测未来股价的动向。持续挖掘、迭代高质量因子,是推动量化投资行业创新发展的关键。 我们相信,最卓越的投资思想往往源于开放的探索与协作。因此,我们选择通过本次赛道,开放真实、高颗粒度的市场数据,邀请全球顶尖高校的人才共同迎接这一挑战。 参赛者将接触到稀缺、高质量的 A 股市场分钟级行情数据,任务是利用这些数据构建一个能够预测未来股票收益的创新因子。您的因子将分两个阶段评估:先在历史数据上回测得到 "公榜" 得分,再在全新、动态更新的市场数据上模拟得到 "私榜" 得分,以确保策略在真实世界中的稳健性。 通过本赛道,您将获得: * 处理大规模金融时序数据的实战经验; * 对市场微观结构的深入理解; * 直面量化领域真实命题——如何适配不同技术路径(传统方法 / AI 技术)驱动因子挖掘、如何在高中低频多策略场景下保持稳健性; * 与全球顶尖高校选手同台比拼,作品被机构与赞助方看见的机会。 ## 赛道设置 本次竞赛设置双赛道并行模式: * **传统量化赛道** * **核心**:强调投资逻辑、统计显著性与经济解释性。 * **方法**:包括但不限于多因子模型、基本面分析、经典技术指标组合、物理模型模拟等。 * **评审导向**:重点评估因子背后的经济学逻辑合理性、统计检验的显著性、不同市场环境下的稳健性,以及因子可解释性。 * **AI 智能赛道** * **核心**:利用大语言模型(LLM)、强化学习、遗传算法等技术进行因子自动生成或优化。 * **方法**:利用 AI 进行自动化特征工程、通过 Prompt Engineering 生成因子公式、使用神经元网络挖掘非线性因子等。 * **评审导向**:除因子有效性外,额外重点评估 AI 技术的应用深度与创新性,以及 AI 参与度(详见决赛评估章节)。 ## 数据 本次竞赛提供高质量的 A 股市场数据: * **股票池**:中证 1000 指数在历史相应时间点上的成分股。 * **时间范围**:2019-01-01 至 2024-12-31。 * **数据内容**: * **K 线及盘口快照**:提供 1 分钟K线及盘口数据。 * **财务数据**:已做 PIT(Point-in-Time)处理。 ## 模版代码 本次竞赛采用"**因子挖掘**"的方式,平台提供包含高频数据在内的各类特色数据,参赛者需按所属赛道构建日频因子并提交。主办方将提供如下多个模版代码供参赛者参考: * 用 SQL 计算因子,参考 `demo_sql.ipynb`。【注:DAI 数据引擎直接计算因子,速度更快,内存占比更低】 * 用 Python 计算因子,参考 `demo_py.ipynb`。【注:传统 Python 计算,请注意内存使用情况】 * AI 赛道专属模版:参考 `demo_ai.ipynb`(包含 LLM 因子生成、强化学习因子优化等基础示例)。 ## 数据校验与预处理 提交的因子数据必须通过以下所有校验,否则视为无效提交。 * **数据列检查**:提交文件必须且仅包含三列 —— `date`(交易日)、`instrument`(股票代码)、`factor`(因子值)。 * 平台不限制因子方向,默认 **因子值越大越好**,参赛者需自行确保因子方向的逻辑正确性。 * **交易日完整性**:因子数据不得缺失评估时间范围内的任何一个交易日。 * **因子覆盖度**:在每个交易日,因子值缺失率不得高于 **40%**。 * **预处理**:对原始因子做 **去极值** 与 **标准化** 处理。 * **风格剔除**:将原始因子与 BARRA 风险因子进行回归,取残差作为新的因子,以评估该因子的增量贡献。 ## 因子池与评估 ### 提交规则 每支团队最多提交 **50 个因子**,并从中选择 **n 个**($1 \le n \le 50$)进入本队的因子池参与评估。 > 提交上限的设计意图:鼓励参赛者精选因子,而非批量堆砌;同时为平台评估保留合理的计算资源。 ### 单因子得分(A 项) 对每个入池因子独立计算单因子得分: $$ \text{FACTOR} \;=\; 0.25 \times \text{Rank}_{IC_{mean}} \;+\; 0.25 \times \text{Rank}_{IC_{IR}} \;+\; 0.25 \times \text{Rank}_{SR} \;+\; 0.25 \times \text{Rank}_{\text{Stress}} $$ * $\text{Rank}_{IC_{mean}}$:IC 均值排名。 * $\text{Rank}_{IC_{IR}}$:IC_IR 排名。 * $\text{Rank}_{SR}$:多空组合夏普比率排名。 * $\text{Rank}_{\text{Stress}}$:特殊行情下的IC_IR得分。 **团队 A 项得分**:取该团队所有入池因子中单因子得分最高者: $$ \text{Score}_A^{(\text{team})} = \max_{i \in \text{team}} \text{FACTOR}_i $$ ### Elastic Net 回归得分(B 项) 将所有参赛团队入池因子汇总为全局候选因子集,以截面 z-score 标准化后的下期收益率为目标,进行 Elastic Net 回归: $$ y_{i,t} = \frac{r_{i,t+1} - \mu_t}{\sigma_t}, \quad r = Fw + \epsilon $$ $$ \mathcal{L} = \|y - Fw\|^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|^2 $$ 采用**滚动窗口**训练(窗口长度 60 个交易日,步长 20 个交易日),对每个因子取跨窗口的权重稳定性得分: $$ \text{ModelScore}_i = \frac{\text{mean}(|w_i|)}{\text{std}(|w_i|) + \epsilon} $$ > 该指标同时衡量因子在组合中的平均贡献大小与跨期稳定性,类比单因子评估中的 IC_IR。Elastic Net 的 L1 项会将无增量贡献的因子权重压至 0,L2 项则使相关因子组内的权重平滑分配,避免随机选一。 **团队 B 项得分**:取该团队所有被 Elastic Net 选中(权重非零)的因子的 ModelScore 均值: $$ \text{Score}_B^{(\text{team})} = \text{mean}_{i \in \mathcal{S}_{\text{team}}} \widetilde{\text{ModelScore}}_i, \quad \mathcal{S}_{\text{team}} = \{i \in \text{team} \mid w_i > 0\} $$ 其中 $\widetilde{\text{ModelScore}}_i$ 为百分位归一化后的 ModelScore,$\mathcal{S}_{\text{team}}$ 为该团队权重非零的因子集合。若团队无任何因子被选中,则 $\text{Score}_B = 0$。 > 因子是否被选中完全由 Elastic Net 的 L1 项决定,无需额外引入人工参数。均值奖励的是"平均质量"——多提交无增量贡献的因子会拉低得分,天然防止以量取胜。 ### 本地调试支持 为方便参赛者在提交前自行评估因子质量,平台提供**本地回归工具**: * 参赛者可将自己的因子库作为输入,在本地运行与官方一致的 Elastic Net 回归流程。 * 工具输出每个因子的 ModelScore 估算值、滚动权重曲线、与其他因子的相关性热力图。 * 本地工具使用**公开的历史因子集**(主办方提供的基础因子库)作为对照组,模拟全局竞争环境。 > 本地结果仅供参考,最终得分以官方全局回归为准(因全局因子集随赛程变化)。 ## 评估周期与排名 本次竞赛分为**公榜阶段**和**私榜阶段**,两个阶段使用不同的数据区间,最终排名以私榜为准。 ### 数据划分 | 阶段 | 训练集 | 验证集 | 说明 | |---|---|---|---| | 公榜 | 2019-01-01 ~ 2024-12-31 | 2025 全年 | 参赛者可见验证集得分,用于调试迭代 | | 私榜 | 不公开 | 不公开 | 包含 2026 年样本外数据,具体区间不对外披露 | > 公榜验证集(2025 年)与私榜评估区间不重叠,防止参赛者通过反复提交间接拟合私榜数据。 ### 评估周期 公榜阶段,每次有新因子提交即加入待评估队列。但 Elastic Net 的计算量随全局因子数 N 增长,为避免资源浪费,平台采用**自适应间隔**: $$ t_{\text{next}} = \max\bigl(k \cdot t_{\text{last\_run}},\; t_{\text{min}}\bigr) $$ * $t_{\text{last\_run}}$:上一轮实际评估耗时。 * $k$:安全系数,取 1.5,为下一轮因子增量留出余量。 * $t_{\text{min}}$:最小间隔,固定为 **1 小时**,避免频繁触发。 比赛初期因子少、计算快,间隔自然短;后期因子池扩大,间隔自动拉长,无需人工干预。 每轮评估完成后,平台同步更新公榜排名、公布本轮评估结果。 **私榜阶段**:公榜截止后,参赛者因子冻结,不得新增或修改。平台使用私榜数据对所有冻结因子进行一次性评估,结果即为最终排名。 ### 团队最终得分 公榜得分仅供参考,不计入最终排名。私榜阶段结束后,按以下公式计算最终得分: $$ \text{Score}_{\text{final}} = 0.3 \times \text{Score}_A^{(\text{team})} + 0.7 \times \text{Score}_B^{(\text{team})} $$ 按 $\text{Score}_{\text{final}}$ 降序排列,得到团队最终排名。两个赛道分别独立计算排名。 ## 每轮公示内容 在每日固定时点,根据最新一次评估结果,主办方公布以下信息,帮助参赛者明确优化方向: **(1)当前因子组合特征(前 10 因子画像)** 对当前 ModelScore 排名前 10 的因子,公布以下特征: | 特征 | 说明 | |---|---| | BARRA 风格暴露 | 该因子在市值、Beta、动量、波动率等风格上的暴露分布,帮助参赛者判断哪些风格维度尚未被充分挖掘 | | 行业分布 | 因子在各行业的平均 IC,揭示因子的行业偏好 | > 公布的是**聚合特征**,不涉及具体因子构造逻辑,不影响知识产权保护。 **(2)团队细节得分** 每轮评估后,向各团队公开以下竞争信息: * 当前权重前 20 的因子中,本团队占据几个(不披露其他团队的因子内容)。 * 本团队各因子的 ModelScore 百分位排名及变化趋势。 * 本团队 A 项、B 项得分及全场排名分位。 > 公开竞争信息可提升比赛紧张感,同时让参赛者清楚知道自己与头部团队的差距在哪里。 ### 指数增强策略跟踪 基于每轮回归得到的因子权重,平台同步构建一个**中证 1000 指数增强策略**: * 以 Elastic Net 回归的合成因子值为信号,在成分股内超配高分股、低配低分股,跟踪误差约束在 5% 以内。 * 每轮评估后更新策略持仓,并展示以下指标: | 指标 | 说明 | |---|---| | 累计超额收益 | 相对中证 1000 的累计 alpha | | 年化超额收益 / 跟踪误差 | 信息比率(IR) | | 最大回撤 | 超额收益的最大回撤 | | 本轮因子更新后的增量贡献 | 新一轮因子加入后策略 IR 的变化 | > 指增策略的持续改善是比赛质量的直观体现——每轮新增的优质因子应能推动策略 IR 上升。若某轮新增因子未能提升策略表现,也会在公示中如实呈现,形成对参赛者的正向反馈。 ## 赛程安排 ### 阶段一:宣传报名 * **时间周期**:2026-05-15 至 2026-06-24 属于宣传报名期,其中 5 月 25 日 - 6 月 24 日为正式报名期,报名截止时间为 **2026-06-24**。 * **报名组队**:通过活动主页进行报名。可单人或多人组队(单一队伍最多不超过 5 人)。报名完成后可加入官方社群(微信 / QQ 群)寻找队友。 * **内测服务**:2026-06-08 至 2026-06-18 属于系统内测阶段,参赛者可以提交代码,用于测试系统稳定性及熟悉比赛系统,最终成绩不计入初赛,内测阶段结束后会重置排分榜单。 ### 阶段二:初赛 * **时间周期**:2026-06-25 至 2026-08-05 * **运行机制**: * 以 **2026-07-26 23:59:59** 作为**截止日期**。 * 在截止日期前,利用平台提供的数据开发因子并按照规范提交代码,平台会使用验证集数据构建对应的因子数据并打分实时更新排名,以队伍最好的一次得分展示在"公榜(Public Leaderboard)"上;同时,参赛队伍可以选择和替换总计不超过 2 个因子作为截止日后的候选因子。 * 在截止日期后,参赛者将不允许修改候选因子的构建代码;平台在私榜区间内的每个交易日盘后,会根据参赛者提供的代码增量构建因子数据,每日计算得分排名,并以队伍最好的一次得分展示在"私榜(Private Leaderboard)"上。 * **线上技术工作坊**:由合作平台方工程师主讲,分赛道介绍平台功能、API 使用、数据结构及因子分析框架(传统赛道聚焦统计验证方法,AI 赛道聚焦 AI 工具链使用)。 * **账号与数据发放**:向所有成功报名的队伍发放比赛专用账号,开放数据访问权限。 ### 阶段三:决赛 **决赛场次与地点** BigAlpha 2026 全球高校联赛在两地举办线下总决赛: | 场次 | 时间 | 地点 | |---|---|---| | 美国场总决赛 | 2026-09-01 | UC Berkeley | | 亚洲场总决赛 | 2026 年 9 月中旬 | 北京大学 | **晋级规则** 每场线下总决赛各设 **12 个晋级名额**,组委会综合三大赛事(AI 因子挖掘、端到端大模型、AI 开放创新)的初赛表现进行评定: * **直通晋级**:每场比赛各赛事初赛 **前 2 名** 直接晋级(3 个赛事 × 2 名 = 6 个名额); * **综合评定**:剩余 **6 个名额** 由组委会在三大赛事中综合判定选出。 **参赛材料** 入围决赛的队伍须按时提交因子研究报告(PDF,10–15 页)。报告应结构完整、论证严谨,需包含以下章节: | 章节 | 内容要点 | |---|---| | 摘要 | 研究目标、核心方法与主要结论 | | 赛道标签 | 明确"传统"或"AI"赛道作为参赛标签 | | 引言 | 因子研究背景与文献综述 | | 因子构建 | 数据预处理、因子计算公式与逻辑(AI 赛道需额外说明 AI 技术应用环节)| | 实证分析 | 因子分析回测结果、绩效归因、稳健性检验(不同市场周期与行业下的表现)| | 创新性与局限性 | 方法创新点与局限性讨论;AI 赛道需说明 AI 应用的创新点 | | 结论 | 研究总结与未来方向 | **答辩与颁奖** 决赛答辩采用 **"25 分钟展示 + 5 分钟评委问答"** 的形式,线下举行并同步线上直播。答辩结束后公布最终名次,并举行颁奖典礼,邀请所有嘉宾、评委与选手共同参与。 ## 决赛评估 入围决赛的队伍将由评审委员会进行综合评估,评分标准如下: * **因子质量与逻辑性**: * 投资逻辑与经济解释性:因子背后的经济学逻辑、市场微观结构解释是否清晰、合理。 * 有效性与稳健性:因子在不同市场周期、不同行业下的表现是否稳定,统计显著性是否达标。 * **研究深度与规范性**: * 报告质量:报告结构是否严谨、分析是否深入、论证是否充分。 * 代码质量:代码是否规范、可读性强、易于复现。 * **现场表现**: * 陈述表达:对研究工作的理解是否深刻,表达是否清晰、有条理。 * 问答互动:回答评委提问是否精准、有逻辑,能否清晰阐述因子的经济意义。 * **AI 创新性**(适用 AI 赛道): * AI 应用逻辑与创新性:AI 技术选型与因子挖掘场景的适配性、AI 应用环节的原创性。 * 有效性与 AI 参与度:因子有效性、稳健性,以及 AI 参与度的实际落地效果。 ## 提交文件 在本次比赛中,您只需要按照**模版代码**里的例子,将因子构建代码写在 **main** 函数中并提交,平台会自动运行生成因子数据,计算得分并实时公布。需注意: 1. 传统赛道代码需标注核心统计方法、经济逻辑对应的实现环节; 2. AI 赛道代码需标注 AI 技术应用的关键环节(如 LLM 调用、模型训练、自动化特征工程等); 3. 若有任何文本类的信息,请以 markdown 格式放在 notebook 中,如使用 AI 时涉及的提示词等; 4. main 函数的返回数据格式需遵循以下规范: | date | instrument | factor | |------------|------------|-------| | 2023-01-03 09:45:00 | 000001.SZ | 0.05 | | 2023-01-03 09:45:00 | 000002.SZ | -0.12 | | ... | ... | ... | ## 赛事奖励 BigAlpha 2026 全球高校联赛设置了丰厚的奖金与权益,覆盖比赛全周期。本因子挖掘赛道与其他两条赛道共享以下奖项体系。 ### 洲际奖项(线下决赛) 亚洲场总决赛与美国场总决赛分别设置如下奖项: | 奖项 | 名额 | 奖金 | 其他权益 | |---|---|---|---| | 金奖 | 1 名 | 人民币 20,000 元 | 奖杯 + 电子证书 | | 银奖 | 2 名 | 人民币 15,000 元 | 奖杯 + 电子证书 | | 铜奖 | 3 名 | 人民币 10,000 元 | 奖杯 + 电子证书 | ### 初赛奖项 * **赛道周冠军**:每场比赛每周根据排名评选周冠军,奖励人民币 1,500 元。 * **BigAlpha 量化新星**:凡参赛并至少提交一次有效合规作品的团队,均颁发电子证书。 ### 特色奖项 随赛事推进,组委会将评选出部分具有特色的作品与团队进行专项颁奖,奖项内容届时公布,奖金合计人民币 12,500 元。 ## 代码要求 本次竞赛为代码竞赛,所有提交必须通过合作的线上量化平台完成。为保证竞赛公平性,您的代码需满足以下条件: * **平台提交**:所有因子生成代码必须在指定的线上平台 Notebook 环境中运行并提交(AI 赛道需使用平台指定的 AI 工具链 / 算力环境)。 * **运行时长限制**:CPU Notebook ≤ 3 小时;AI 赛道 GPU Notebook ≤ 6 小时。 * **禁止访问外部网络**:为防止信息泄露和使用未来数据,Notebook 的互联网访问权限将被禁用。 * **最终提交**:您提交的必须是可以自动运行并生成因子文件的代码,而非因子数据文件本身;AI 赛道需额外提交 AI 技术应用说明文档(说明 AI 参与度对应的代码环节)。

奖金&奖项

¥200000

比赛数据

比赛规则

> 本文为 **BigAlpha 2026 全球高校联赛 · AI 因子挖掘赛道**的合规与免责文件,与介绍文档形成配套。 ## 基本规则 ## 知识产权 * 参赛作品(代码、因子构造、报告等)的知识产权归参赛队伍所有。 * 主办方对所有作品拥有**非商业性的评审、展示、宣传**权利,包括但不限于:在官方渠道公示因子排名与聚合特征、在赛事复盘中匿名引用因子方法、在学术 / 行业交流中以**脱敏形式**展示。 * 对于获奖的优秀因子,主办方在**同等条件下**拥有优先的商业合作洽谈权;商业合作的具体形式、对价、署名将另行签署书面协议,本规则不构成商业授权本身。 * 对于参赛者使用的第三方资源(开源库、预训练模型、外部 API 等),其许可与权属由参赛者自行负责,详见第 5.2 条。 ### 诚信竞赛 参赛者须遵守以下基本原则;具体可识别的违规行为见第二章"反作弊与违规清单"。 * 严禁**抄袭**他人代码 / 因子(包括往届赛事、公开仓库、其他队伍)。 * 严禁**跨队共享**核心代码、因子、模型权重;**禁止串通刷分**(如多队伍互相提交相同因子推高自身相对排名)。 * 严禁以任何方式**绕过、欺骗、攻击**评估系统(详见第二章)。 * 鼓励参考公开文献、开源工具、官方模板代码——以"复现 + 改进"为基础的工作受到欢迎,但须在决赛报告中**明确标注引用来源与改进点**。 ### 赛道合规 * **传统赛道**:严禁使用 AI 赛道限定的自动化因子生成技术,包括但不限于: * 使用大语言模型(LLM)批量生成因子表达式; * 使用强化学习 / 遗传算法 / 神经网络对因子进行自动搜索或自动组合; * 使用 AutoML 工具对因子进行自动化特征工程。 * **可使用**:传统统计方法、经济学逻辑驱动的人工因子构造、经典机器学习用作辅助分析(如用 XGBoost 做事后归因,但不得作为因子生成主体)。 * **AI 赛道**:核心因子构建逻辑须由 AI 主导,严禁伪 AI(即用人工因子套上 AI 外壳)。最终提交时须额外提供 **AI 应用说明文档**,明确标注: * 所使用的 AI 技术类型(LLM / RL / GA / NN 等); * AI 在因子生成 / 优化链路中的具体环节与代码位置; * 关键 prompt、训练配置、损失函数等可复现的核心信息; * AI 参与度的自评(详见决赛评估章节)。 * **赛道认定争议**:若组委会对作品的赛道归属存疑,将要求队伍补充材料澄清;澄清后仍无法证明合规的,按违规处理。 ## 反作弊与违规清单 > 在过往赛事中,部分参赛者会利用赛制设计的灰色地带提升排名。本章对**可识别的违规行为**进行明确列举,并说明检测机制与处理梯度,避免事后争议。 ### 数据使用类违规 * **使用未来数据(look-ahead bias)**:在 t 日因子计算中使用 t 日盘后或 t+1 日及以后的数据。包括但不限于:用 t 日收盘价构造 t 日 09:45 的因子值、用 t+5 日的财报数据回填 t 日因子。 * **越权访问数据**:使用赛题股票池(中证 1000 在历史时点的成分股)以外的数据、或使用赛题时间范围(2019-01-01 ~ 2024-12-31)以外的数据来辅助构造公榜因子。 * **私自上传外部数据**:通过 Notebook 上传非平台提供的数据集(包括但不限于另类数据、海外市场数据、第三方因子库)参与因子构造。 * **数据投毒**:手工修改、伪造、注入因子数据文件,而非通过代码自动生成。 ### 提交规避类违规 * **稀疏因子规避覆盖度校验**:刻意构造覆盖率刚好高于 60%(即缺失率 40%)但实际仅在少数股票上有效的因子,规避校验。 * **多因子拼接绕过相关性约束**:将一个完整因子人为拆分成多个高度相关的子因子分别提交,意图占据更多排名席位。 * **轮换提交刷新排名**:对同一因子做无实质改动的微调反复提交,仅为触发评估或刷新公榜显示。 * **反向因子滥用**:在因子方向不显著时,仅通过加负号来构造"新因子"。 ### 身份与协作类违规 * **多账号参赛**:同一自然人注册多个账号、加入多个队伍。 * **跨队伍代码 / 因子共享**:不同队伍之间共享因子代码、模型权重、关键 prompt;包括以"师门内部分工"、"实验室共享"为名的分发。 * **代提交**:他人代为编写并提交参赛作品,本人对作品无实质贡献。 * **串通刷分**:多个队伍合谋调整提交策略,意图共同抬高某一方排名或压制竞争对手。 ### AI 赛道专项违规 * **伪 AI 应用**:以 AI 之名包装人工构造的因子(例如:用 LLM 仅做最后的"翻译"或"美化",因子实质仍为人工设计)。 * **AI 输出造假**:在 AI 应用说明文档中虚构 AI 调用记录、prompt、训练日志。 * **AI 参与度虚报**:在决赛阶段对"AI 参与度"的描述与实际代码不符。 ### 检测机制 主办方将通过以下机制进行违规检测,参赛者提交即视为同意接受: * **静态代码分析**:扫描提交代码中的可疑模式(如时间索引偏移、外部网络请求、数据外联)。 * **因子相关性聚类**:对全场入池因子做相关性矩阵分析,识别异常聚簇。 * **跨队伍指纹比对**:比对不同队伍提交代码的结构相似度、变量命名、注释风格。 * **运行时审计**:抽样队伍代码在隔离环境中复现,比对因子数据与队伍声称的逻辑是否一致。 * **AI 赛道专项审计**:对入围决赛的 AI 赛道队伍,要求复现核心 AI 调用链路。 ## 规则版本与变更 * **规则版本说明**:当前比赛规则为**初拟版本**,可能在内测阶段遇到不可抗的工程或评估问题(如数据接口变更、评估算法瓶颈、第三方服务异常等)。**最终以"内测结束、正式比赛开始前"发布的规则版本为准**,请参赛者持续关注官方公告与社群通知。 * **比赛期间的规则调整权**:为保障公平性,**主办方保留在比赛进行期间修订规则、调整评估口径、增补反作弊机制的权利**。规则调整将兼顾已提交作品的处理方式(如重新评分、保留历史得分作为参考、给予合理的代码调整窗口等),尽量降低对正常参赛队伍的影响。 * **变更类型与提前量**: | 变更类型 | 举例 | 提前通知量 | |---|---|---| | 重大变更 | 评分公式修改、提交规范调整、赛程顺延 | ≥ 48 小时 | | 一般变更 | 公示信息字段调整、本地工具版本更新 | ≥ 24 小时 | | 紧急修订 | 反作弊补丁、严重数据 / 平台 Bug 修复、安全漏洞响应 | 即时通知,事后补充说明 | * **变更通知渠道**:官网公告、官方社群(微信 / QQ 群)置顶、平台站内信,三个渠道至少**两个**同步发布,以站内信送达时间为正式生效时间。 * **历史版本留档**:所有规则版本将在官网保留可追溯的历史记录,便于参赛者核对自己提交时所依据的规则;版本号采用"主版本.次版本"格式,重大变更升级主版本号。 ## 数据与平台免责 * **数据使用范围**:比赛数据仅供**赛事评估与学习研究**使用,严禁外传、商用、上传至公开仓库或用于本赛事以外的任何场景,包括赛事结束后。一经发现,主办方将依法追究责任。 * **数据保密期限**:本赛事所提供的高频快照、PIT 财务数据等敏感数据的保密义务**长期有效**,不因比赛结束而解除。 * **数据准确性**:主办方已对数据做必要的清洗与校验,但不对数据的绝对准确性、完整性作出保证;因数据问题导致的因子表现波动,**一般情况下不作为评估申诉的依据**,但严重数据错误(如批量缺失、字段错位、复权异常)经核实后会触发统一重算,并向所有受影响队伍同步说明。 * **平台稳定性**:BigQuant 平台已做高可用部署,但仍可能因不可抗力(机房故障、网络中断、第三方依赖异常等)出现短时不可用。因平台故障导致的提交延误,主办方将根据故障时长合理顺延截止时间或取消该时段的评估结果,**不对参赛者的算力消耗、时间投入作经济补偿**。 * **算力配额**:CPU Notebook ≤ 3 小时 / 次,AI 赛道 GPU Notebook ≤ 6 小时 / 次(详见介绍文档"代码要求")。超出配额导致的运行失败由参赛者自行负责。 * **结果不构成投资建议**:本赛事所有因子、模型、回测结果及衍生分析仅供学术研究与赛事评估使用,**不构成任何形式的投资建议**。任何人据此进行实盘投资所产生的盈亏,主办方、平台方及合作方均不承担责任。 ## 参赛者责任 ### 代码合规与安全 * 参赛者需对自己提交的代码负责,不得包含: * 恶意代码、后门、未授权访问平台资源的逻辑; * 试图规避平台沙箱、网络隔离、资源限制的代码; * 试图获取其他队伍提交内容、评估中间结果的代码。 * 一经发现,立即按 L4 处理(取消资格),并保留追究法律责任的权利。 ### 5第三方依赖 * 若参赛者使用了开源库、预训练模型、外部 API 等第三方资源,需自行确认其许可协议**允许竞赛及商业评审场景使用**。 * 由第三方依赖引发的版权 / 许可争议,由参赛者自行承担;主办方有权要求队伍替换有争议的依赖。 ### 个人信息与肖像 * 参赛者报名时提供的个人信息仅用于赛事相关用途,主办方将依法保护,但参赛者需保证所提供信息真实有效。 * 决赛入围队伍同意主办方在赛事宣传中使用其**姓名、学校、队名、决赛影像**;如需保留匿名权利,须在决赛入围确认时书面提出。 ### 内测与冻结期约束 * 内测阶段(2026-06-08 至 2026-06-18)的提交不计入初赛得分。 * 初赛截止后的候选因子(每队不超过 2 个,详见介绍文档)一经选定不得修改;私榜阶段,参赛者**不得新增或修改任何因子的构建代码**。 ## 申诉与最终解释 ### 申诉流程 * **申诉范围**:评估结果争议、违规处理异议、数据严重错误等。 * **申诉渠道**:联系赛事运营人员,附必要的证据(截图、日志、代码片段等)。**不接受**通过非官方渠道(私下联系评委、社群刷屏等)的申诉。 * **响应时限**: | 申诉类型 | 首次响应 | 处理结论 | |---|---|---| | 一般申诉(评估结果、公示信息) | 5 个工作日内 | 10 个工作日内 | | 违规处理异议(针对 L3 / L4) | 48 小时内 | 7 个工作日内 | | 紧急申诉(涉及截止时间、关键数据) | 24 小时内 | 与紧急修订一并处理 | * **重复申诉**:同一事项的重复申诉、无新证据的申诉,组委会有权不再单独答复。 ### 最终解释权 本赛事所有规则的最终解释权归 **BigAlpha 2026 大赛组委会**所有。规则中文版本与任何翻译版本存在歧义时,以**中文版本为准**。 --- > **承诺**:报名即视为已阅读并同意本规则全部条款。如有疑问,请在报名前通过官方渠道咨询;报名后再以"未注意到某条规则"为由的申诉,组委会不予采纳。 >