AI 因子挖掘
比赛时间: -
深挖高质量因子,传统与 AI 双轨并行
主办方:BigAlpha
比赛介绍
## 赛事介绍
### BigAlpha 全球联赛
**BigAlpha** 是 BigQuant(宽邦科技)面向全球高校青年人才打造的年度 AI 量化投研赛事 IP,连接高校、学生、量化机构与 AI 金融实践场景。依托 BigQuant AI 投研平台,赛事通过真实数据、开放赛题与专业评审,发现具备 AI 投研能力、量化建模能力与策略创新能力的新一代金融科技人才。
BigAlpha 2026 在全球同步开放三大赛事,参赛者可根据自身背景与兴趣自由选择:
| 赛道 | 适合人群 | 链接 |
|---|---|---|
| **AI 因子挖掘** | 金融工程、量化、数学、统计方向学生 | [AI 因子挖掘](https://bigquant.com/square/competition/76ad3f56-ec2b-431a-890e-139a7f4bbcba) |
| **端到端大模型** | AI、CS、数据科学、金融科技方向学生 | [端到端大模型](https://bigquant.com/square/competition/523f9302-5b4b-42bd-bce1-f232e7c74316) |
| **AI 开放创新** | 跨学科团队、创新创业团队 | [AI 开放创新](https://bigquant.com/square/competition/63dd885c-2488-4efd-9c61-9e3a536f172c) |
本文档介绍的是其中的 **AI 因子挖掘** 赛事。
### 关于 BigQuant
BigQuant 是国内领先的 AI 量化投资平台,使命是 "Democratize AI to empower investors"——让 AI 普惠每一位投资者。作为行业内首个将 AI 技术系统性应用于投资领域的平台级产品,BigQuant 把机器学习、深度学习等前沿 AI 技术与量化投资深度融合,为个人 Quant、研究机构、券商及资管机构提供从数据、研究、回测到实盘的一站式解决方案,目前已被多家头部金融机构采用为量化研究与投资决策的基础平台。
平台核心能力涵盖四个层面:
* **数据底座**:PB 级标准金融数据 + 新型另类数据,覆盖行情、财务、舆情、产业链等多维度,并提供 PIT 处理、跨频率对齐等基础设施。
* **因子与算法**:内置 2000+ 基础因子库,支持表达式引擎、UDF、AI 自动化因子挖掘等多种构建方式;集成 AutoML、超参寻优、滚动训练、组合优化、归因分析等量化研发组件。
* **研发环境**:DAI 数据引擎提供高性能因子计算(速度更快、内存占用更低);模块化可视化开发与 Python / Notebook 无缝集成,兼顾低门槛与灵活性。
* **生态与落地**:策略源码库、券商研报、量化学院培训体系、模拟与实盘对接,构建从学习到落地的完整闭环。
本赛道基于 BigQuant 平台的真实数据与研发环境举办,参赛者将直接使用与机构客户一致的工具链完成因子挖掘与提交。
### 为什么是因子挖掘
在现代量化投资领域,阿尔法因子(Alpha Factor)是获取超额收益的核心。一个有效的因子,能够从海量、嘈杂的市场数据中精准预测未来股价的动向。持续挖掘、迭代高质量因子,是推动量化投资行业创新发展的关键。
我们相信,最卓越的投资思想往往源于开放的探索与协作。因此,我们选择通过本次赛道,开放真实、高颗粒度的市场数据,邀请全球顶尖高校的人才共同迎接这一挑战。
参赛者将接触到稀缺、高质量的 A 股市场分钟级行情数据,任务是利用这些数据构建一个能够预测未来股票收益的创新因子。您的因子将分两个阶段评估:先在历史数据上回测得到 "公榜" 得分,再在全新、动态更新的市场数据上模拟得到 "私榜" 得分,以确保策略在真实世界中的稳健性。
通过本赛道,您将获得:
* 处理大规模金融时序数据的实战经验;
* 对市场微观结构的深入理解;
* 直面量化领域真实命题——如何适配不同技术路径(传统方法 / AI 技术)驱动因子挖掘、如何在高中低频多策略场景下保持稳健性;
* 与全球顶尖高校选手同台比拼,作品被机构与赞助方看见的机会。
## 赛道设置
本次竞赛设置双赛道并行模式:
* **传统量化赛道**
* **核心**:强调投资逻辑、统计显著性与经济解释性。
* **方法**:包括但不限于多因子模型、基本面分析、经典技术指标组合、物理模型模拟等。
* **评审导向**:重点评估因子背后的经济学逻辑合理性、统计检验的显著性、不同市场环境下的稳健性,以及因子可解释性。
* **AI 智能赛道**
* **核心**:利用大语言模型(LLM)、强化学习、遗传算法等技术进行因子自动生成或优化。
* **方法**:利用 AI 进行自动化特征工程、通过 Prompt Engineering 生成因子公式、使用神经元网络挖掘非线性因子等。
* **评审导向**:除因子有效性外,额外重点评估 AI 技术的应用深度与创新性,以及 AI 参与度(详见决赛评估章节)。
## 数据
本次竞赛提供高质量的 A 股市场数据:
* **股票池**:中证 1000 指数在历史相应时间点上的成分股。
* **时间范围**:2019-01-01 至 2024-12-31。
* **数据内容**:
* **K 线及盘口快照**:提供 1 分钟K线及盘口数据。
* **财务数据**:已做 PIT(Point-in-Time)处理。
## 模版代码
本次竞赛采用"**因子挖掘**"的方式,平台提供包含高频数据在内的各类特色数据,参赛者需按所属赛道构建日频因子并提交。主办方将提供如下多个模版代码供参赛者参考:
* 用 SQL 计算因子,参考 `demo_sql.ipynb`。【注:DAI 数据引擎直接计算因子,速度更快,内存占比更低】
* 用 Python 计算因子,参考 `demo_py.ipynb`。【注:传统 Python 计算,请注意内存使用情况】
* AI 赛道专属模版:参考 `demo_ai.ipynb`(包含 LLM 因子生成、强化学习因子优化等基础示例)。
## 数据校验与预处理
提交的因子数据必须通过以下所有校验,否则视为无效提交。
* **数据列检查**:提交文件必须且仅包含三列 —— `date`(交易日)、`instrument`(股票代码)、`factor`(因子值)。
* 平台不限制因子方向,默认 **因子值越大越好**,参赛者需自行确保因子方向的逻辑正确性。
* **交易日完整性**:因子数据不得缺失评估时间范围内的任何一个交易日。
* **因子覆盖度**:在每个交易日,因子值缺失率不得高于 **40%**。
* **预处理**:对原始因子做 **去极值** 与 **标准化** 处理。
* **风格剔除**:将原始因子与 BARRA 风险因子进行回归,取残差作为新的因子,以评估该因子的增量贡献。
## 因子池与评估
### 提交规则
每支团队最多提交 **50 个因子**,并从中选择 **n 个**($1 \le n \le 50$)进入本队的因子池参与评估。
> 提交上限的设计意图:鼓励参赛者精选因子,而非批量堆砌;同时为平台评估保留合理的计算资源。
### 单因子得分(A 项)
对每个入池因子独立计算单因子得分:
$$
\text{FACTOR} \;=\; 0.25 \times \text{Rank}_{IC_{mean}} \;+\; 0.25 \times \text{Rank}_{IC_{IR}} \;+\; 0.25 \times \text{Rank}_{SR} \;+\; 0.25 \times \text{Rank}_{\text{Stress}}
$$
* $\text{Rank}_{IC_{mean}}$:IC 均值排名。
* $\text{Rank}_{IC_{IR}}$:IC_IR 排名。
* $\text{Rank}_{SR}$:多空组合夏普比率排名。
* $\text{Rank}_{\text{Stress}}$:特殊行情下的IC_IR得分。
**团队 A 项得分**:取该团队所有入池因子中单因子得分最高者:
$$
\text{Score}_A^{(\text{team})} = \max_{i \in \text{team}} \text{FACTOR}_i
$$
### Elastic Net 回归得分(B 项)
将所有参赛团队入池因子汇总为全局候选因子集,以截面 z-score 标准化后的下期收益率为目标,进行 Elastic Net 回归:
$$
y_{i,t} = \frac{r_{i,t+1} - \mu_t}{\sigma_t}, \quad r = Fw + \epsilon
$$
$$
\mathcal{L} = \|y - Fw\|^2 + \lambda_1 \|w\|_1 + \lambda_2 \|w\|^2
$$
采用**滚动窗口**训练(窗口长度 60 个交易日,步长 20 个交易日),对每个因子取跨窗口的权重稳定性得分:
$$
\text{ModelScore}_i = \frac{\text{mean}(|w_i|)}{\text{std}(|w_i|) + \epsilon}
$$
> 该指标同时衡量因子在组合中的平均贡献大小与跨期稳定性,类比单因子评估中的 IC_IR。Elastic Net 的 L1 项会将无增量贡献的因子权重压至 0,L2 项则使相关因子组内的权重平滑分配,避免随机选一。
**团队 B 项得分**:取该团队所有被 Elastic Net 选中(权重非零)的因子的 ModelScore 均值:
$$
\text{Score}_B^{(\text{team})} = \text{mean}_{i \in \mathcal{S}_{\text{team}}} \widetilde{\text{ModelScore}}_i, \quad \mathcal{S}_{\text{team}} = \{i \in \text{team} \mid w_i > 0\}
$$
其中 $\widetilde{\text{ModelScore}}_i$ 为百分位归一化后的 ModelScore,$\mathcal{S}_{\text{team}}$ 为该团队权重非零的因子集合。若团队无任何因子被选中,则 $\text{Score}_B = 0$。
> 因子是否被选中完全由 Elastic Net 的 L1 项决定,无需额外引入人工参数。均值奖励的是"平均质量"——多提交无增量贡献的因子会拉低得分,天然防止以量取胜。
### 本地调试支持
为方便参赛者在提交前自行评估因子质量,平台提供**本地回归工具**:
* 参赛者可将自己的因子库作为输入,在本地运行与官方一致的 Elastic Net 回归流程。
* 工具输出每个因子的 ModelScore 估算值、滚动权重曲线、与其他因子的相关性热力图。
* 本地工具使用**公开的历史因子集**(主办方提供的基础因子库)作为对照组,模拟全局竞争环境。
> 本地结果仅供参考,最终得分以官方全局回归为准(因全局因子集随赛程变化)。
## 评估周期与排名
本次竞赛分为**公榜阶段**和**私榜阶段**,两个阶段使用不同的数据区间,最终排名以私榜为准。
### 数据划分
| 阶段 | 训练集 | 验证集 | 说明 |
|---|---|---|---|
| 公榜 | 2019-01-01 ~ 2024-12-31 | 2025 全年 | 参赛者可见验证集得分,用于调试迭代 |
| 私榜 | 不公开 | 不公开 | 包含 2026 年样本外数据,具体区间不对外披露 |
> 公榜验证集(2025 年)与私榜评估区间不重叠,防止参赛者通过反复提交间接拟合私榜数据。
### 评估周期
公榜阶段,每次有新因子提交即加入待评估队列。但 Elastic Net 的计算量随全局因子数 N 增长,为避免资源浪费,平台采用**自适应间隔**:
$$
t_{\text{next}} = \max\bigl(k \cdot t_{\text{last\_run}},\; t_{\text{min}}\bigr)
$$
* $t_{\text{last\_run}}$:上一轮实际评估耗时。
* $k$:安全系数,取 1.5,为下一轮因子增量留出余量。
* $t_{\text{min}}$:最小间隔,固定为 **1 小时**,避免频繁触发。
比赛初期因子少、计算快,间隔自然短;后期因子池扩大,间隔自动拉长,无需人工干预。
每轮评估完成后,平台同步更新公榜排名、公布本轮评估结果。
**私榜阶段**:公榜截止后,参赛者因子冻结,不得新增或修改。平台使用私榜数据对所有冻结因子进行一次性评估,结果即为最终排名。
### 团队最终得分
公榜得分仅供参考,不计入最终排名。私榜阶段结束后,按以下公式计算最终得分:
$$
\text{Score}_{\text{final}} = 0.3 \times \text{Score}_A^{(\text{team})} + 0.7 \times \text{Score}_B^{(\text{team})}
$$
按 $\text{Score}_{\text{final}}$ 降序排列,得到团队最终排名。两个赛道分别独立计算排名。
## 每轮公示内容
在每日固定时点,根据最新一次评估结果,主办方公布以下信息,帮助参赛者明确优化方向:
**(1)当前因子组合特征(前 10 因子画像)**
对当前 ModelScore 排名前 10 的因子,公布以下特征:
| 特征 | 说明 |
|---|---|
| BARRA 风格暴露 | 该因子在市值、Beta、动量、波动率等风格上的暴露分布,帮助参赛者判断哪些风格维度尚未被充分挖掘 |
| 行业分布 | 因子在各行业的平均 IC,揭示因子的行业偏好 |
> 公布的是**聚合特征**,不涉及具体因子构造逻辑,不影响知识产权保护。
**(2)团队细节得分**
每轮评估后,向各团队公开以下竞争信息:
* 当前权重前 20 的因子中,本团队占据几个(不披露其他团队的因子内容)。
* 本团队各因子的 ModelScore 百分位排名及变化趋势。
* 本团队 A 项、B 项得分及全场排名分位。
> 公开竞争信息可提升比赛紧张感,同时让参赛者清楚知道自己与头部团队的差距在哪里。
### 指数增强策略跟踪
基于每轮回归得到的因子权重,平台同步构建一个**中证 1000 指数增强策略**:
* 以 Elastic Net 回归的合成因子值为信号,在成分股内超配高分股、低配低分股,跟踪误差约束在 5% 以内。
* 每轮评估后更新策略持仓,并展示以下指标:
| 指标 | 说明 |
|---|---|
| 累计超额收益 | 相对中证 1000 的累计 alpha |
| 年化超额收益 / 跟踪误差 | 信息比率(IR) |
| 最大回撤 | 超额收益的最大回撤 |
| 本轮因子更新后的增量贡献 | 新一轮因子加入后策略 IR 的变化 |
> 指增策略的持续改善是比赛质量的直观体现——每轮新增的优质因子应能推动策略 IR 上升。若某轮新增因子未能提升策略表现,也会在公示中如实呈现,形成对参赛者的正向反馈。
## 赛程安排
### 阶段一:宣传报名
* **时间周期**:2026-05-15 至 2026-06-24 属于宣传报名期,其中 5 月 25 日 - 6 月 24 日为正式报名期,报名截止时间为 **2026-06-24**。
* **报名组队**:通过活动主页进行报名。可单人或多人组队(单一队伍最多不超过 5 人)。报名完成后可加入官方社群(微信 / QQ 群)寻找队友。
* **内测服务**:2026-06-08 至 2026-06-18 属于系统内测阶段,参赛者可以提交代码,用于测试系统稳定性及熟悉比赛系统,最终成绩不计入初赛,内测阶段结束后会重置排分榜单。
### 阶段二:初赛
* **时间周期**:2026-06-25 至 2026-08-05
* **运行机制**:
* 以 **2026-07-26 23:59:59** 作为**截止日期**。
* 在截止日期前,利用平台提供的数据开发因子并按照规范提交代码,平台会使用验证集数据构建对应的因子数据并打分实时更新排名,以队伍最好的一次得分展示在"公榜(Public Leaderboard)"上;同时,参赛队伍可以选择和替换总计不超过 2 个因子作为截止日后的候选因子。
* 在截止日期后,参赛者将不允许修改候选因子的构建代码;平台在私榜区间内的每个交易日盘后,会根据参赛者提供的代码增量构建因子数据,每日计算得分排名,并以队伍最好的一次得分展示在"私榜(Private Leaderboard)"上。
* **线上技术工作坊**:由合作平台方工程师主讲,分赛道介绍平台功能、API 使用、数据结构及因子分析框架(传统赛道聚焦统计验证方法,AI 赛道聚焦 AI 工具链使用)。
* **账号与数据发放**:向所有成功报名的队伍发放比赛专用账号,开放数据访问权限。
### 阶段三:决赛
**决赛场次与地点**
BigAlpha 2026 全球高校联赛在两地举办线下总决赛:
| 场次 | 时间 | 地点 |
|---|---|---|
| 美国场总决赛 | 2026-09-01 | UC Berkeley |
| 亚洲场总决赛 | 2026 年 9 月中旬 | 北京大学 |
**晋级规则**
每场线下总决赛各设 **12 个晋级名额**,组委会综合三大赛事(AI 因子挖掘、端到端大模型、AI 开放创新)的初赛表现进行评定:
* **直通晋级**:每场比赛各赛事初赛 **前 2 名** 直接晋级(3 个赛事 × 2 名 = 6 个名额);
* **综合评定**:剩余 **6 个名额** 由组委会在三大赛事中综合判定选出。
**参赛材料**
入围决赛的队伍须按时提交因子研究报告(PDF,10–15 页)。报告应结构完整、论证严谨,需包含以下章节:
| 章节 | 内容要点 |
|---|---|
| 摘要 | 研究目标、核心方法与主要结论 |
| 赛道标签 | 明确"传统"或"AI"赛道作为参赛标签 |
| 引言 | 因子研究背景与文献综述 |
| 因子构建 | 数据预处理、因子计算公式与逻辑(AI 赛道需额外说明 AI 技术应用环节)|
| 实证分析 | 因子分析回测结果、绩效归因、稳健性检验(不同市场周期与行业下的表现)|
| 创新性与局限性 | 方法创新点与局限性讨论;AI 赛道需说明 AI 应用的创新点 |
| 结论 | 研究总结与未来方向 |
**答辩与颁奖**
决赛答辩采用 **"25 分钟展示 + 5 分钟评委问答"** 的形式,线下举行并同步线上直播。答辩结束后公布最终名次,并举行颁奖典礼,邀请所有嘉宾、评委与选手共同参与。
## 决赛评估
入围决赛的队伍将由评审委员会进行综合评估,评分标准如下:
* **因子质量与逻辑性**:
* 投资逻辑与经济解释性:因子背后的经济学逻辑、市场微观结构解释是否清晰、合理。
* 有效性与稳健性:因子在不同市场周期、不同行业下的表现是否稳定,统计显著性是否达标。
* **研究深度与规范性**:
* 报告质量:报告结构是否严谨、分析是否深入、论证是否充分。
* 代码质量:代码是否规范、可读性强、易于复现。
* **现场表现**:
* 陈述表达:对研究工作的理解是否深刻,表达是否清晰、有条理。
* 问答互动:回答评委提问是否精准、有逻辑,能否清晰阐述因子的经济意义。
* **AI 创新性**(适用 AI 赛道):
* AI 应用逻辑与创新性:AI 技术选型与因子挖掘场景的适配性、AI 应用环节的原创性。
* 有效性与 AI 参与度:因子有效性、稳健性,以及 AI 参与度的实际落地效果。
## 提交文件
在本次比赛中,您只需要按照**模版代码**里的例子,将因子构建代码写在 **main** 函数中并提交,平台会自动运行生成因子数据,计算得分并实时公布。需注意:
1. 传统赛道代码需标注核心统计方法、经济逻辑对应的实现环节;
2. AI 赛道代码需标注 AI 技术应用的关键环节(如 LLM 调用、模型训练、自动化特征工程等);
3. 若有任何文本类的信息,请以 markdown 格式放在 notebook 中,如使用 AI 时涉及的提示词等;
4. main 函数的返回数据格式需遵循以下规范:
| date | instrument | factor |
|------------|------------|-------|
| 2023-01-03 09:45:00 | 000001.SZ | 0.05 |
| 2023-01-03 09:45:00 | 000002.SZ | -0.12 |
| ... | ... | ... |
## 赛事奖励
BigAlpha 2026 全球高校联赛设置了丰厚的奖金与权益,覆盖比赛全周期。本因子挖掘赛道与其他两条赛道共享以下奖项体系。
### 洲际奖项(线下决赛)
亚洲场总决赛与美国场总决赛分别设置如下奖项:
| 奖项 | 名额 | 奖金 | 其他权益 |
|---|---|---|---|
| 金奖 | 1 名 | 人民币 20,000 元 | 奖杯 + 电子证书 |
| 银奖 | 2 名 | 人民币 15,000 元 | 奖杯 + 电子证书 |
| 铜奖 | 3 名 | 人民币 10,000 元 | 奖杯 + 电子证书 |
### 初赛奖项
* **赛道周冠军**:每场比赛每周根据排名评选周冠军,奖励人民币 1,500 元。
* **BigAlpha 量化新星**:凡参赛并至少提交一次有效合规作品的团队,均颁发电子证书。
### 特色奖项
随赛事推进,组委会将评选出部分具有特色的作品与团队进行专项颁奖,奖项内容届时公布,奖金合计人民币 12,500 元。
## 代码要求
本次竞赛为代码竞赛,所有提交必须通过合作的线上量化平台完成。为保证竞赛公平性,您的代码需满足以下条件:
* **平台提交**:所有因子生成代码必须在指定的线上平台 Notebook 环境中运行并提交(AI 赛道需使用平台指定的 AI 工具链 / 算力环境)。
* **运行时长限制**:CPU Notebook ≤ 3 小时;AI 赛道 GPU Notebook ≤ 6 小时。
* **禁止访问外部网络**:为防止信息泄露和使用未来数据,Notebook 的互联网访问权限将被禁用。
* **最终提交**:您提交的必须是可以自动运行并生成因子文件的代码,而非因子数据文件本身;AI 赛道需额外提交 AI 技术应用说明文档(说明 AI 参与度对应的代码环节)。
奖金&奖项
¥200000
比赛数据
比赛规则
> 本文为 **BigAlpha 2026 全球高校联赛 · AI 因子挖掘赛道**的合规与免责文件,与介绍文档形成配套。
## 基本规则
## 知识产权
* 参赛作品(代码、因子构造、报告等)的知识产权归参赛队伍所有。
* 主办方对所有作品拥有**非商业性的评审、展示、宣传**权利,包括但不限于:在官方渠道公示因子排名与聚合特征、在赛事复盘中匿名引用因子方法、在学术 / 行业交流中以**脱敏形式**展示。
* 对于获奖的优秀因子,主办方在**同等条件下**拥有优先的商业合作洽谈权;商业合作的具体形式、对价、署名将另行签署书面协议,本规则不构成商业授权本身。
* 对于参赛者使用的第三方资源(开源库、预训练模型、外部 API 等),其许可与权属由参赛者自行负责,详见第 5.2 条。
### 诚信竞赛
参赛者须遵守以下基本原则;具体可识别的违规行为见第二章"反作弊与违规清单"。
* 严禁**抄袭**他人代码 / 因子(包括往届赛事、公开仓库、其他队伍)。
* 严禁**跨队共享**核心代码、因子、模型权重;**禁止串通刷分**(如多队伍互相提交相同因子推高自身相对排名)。
* 严禁以任何方式**绕过、欺骗、攻击**评估系统(详见第二章)。
* 鼓励参考公开文献、开源工具、官方模板代码——以"复现 + 改进"为基础的工作受到欢迎,但须在决赛报告中**明确标注引用来源与改进点**。
### 赛道合规
* **传统赛道**:严禁使用 AI 赛道限定的自动化因子生成技术,包括但不限于:
* 使用大语言模型(LLM)批量生成因子表达式;
* 使用强化学习 / 遗传算法 / 神经网络对因子进行自动搜索或自动组合;
* 使用 AutoML 工具对因子进行自动化特征工程。
* **可使用**:传统统计方法、经济学逻辑驱动的人工因子构造、经典机器学习用作辅助分析(如用 XGBoost 做事后归因,但不得作为因子生成主体)。
* **AI 赛道**:核心因子构建逻辑须由 AI 主导,严禁伪 AI(即用人工因子套上 AI 外壳)。最终提交时须额外提供 **AI 应用说明文档**,明确标注:
* 所使用的 AI 技术类型(LLM / RL / GA / NN 等);
* AI 在因子生成 / 优化链路中的具体环节与代码位置;
* 关键 prompt、训练配置、损失函数等可复现的核心信息;
* AI 参与度的自评(详见决赛评估章节)。
* **赛道认定争议**:若组委会对作品的赛道归属存疑,将要求队伍补充材料澄清;澄清后仍无法证明合规的,按违规处理。
## 反作弊与违规清单
> 在过往赛事中,部分参赛者会利用赛制设计的灰色地带提升排名。本章对**可识别的违规行为**进行明确列举,并说明检测机制与处理梯度,避免事后争议。
### 数据使用类违规
* **使用未来数据(look-ahead bias)**:在 t 日因子计算中使用 t 日盘后或 t+1 日及以后的数据。包括但不限于:用 t 日收盘价构造 t 日 09:45 的因子值、用 t+5 日的财报数据回填 t 日因子。
* **越权访问数据**:使用赛题股票池(中证 1000 在历史时点的成分股)以外的数据、或使用赛题时间范围(2019-01-01 ~ 2024-12-31)以外的数据来辅助构造公榜因子。
* **私自上传外部数据**:通过 Notebook 上传非平台提供的数据集(包括但不限于另类数据、海外市场数据、第三方因子库)参与因子构造。
* **数据投毒**:手工修改、伪造、注入因子数据文件,而非通过代码自动生成。
### 提交规避类违规
* **稀疏因子规避覆盖度校验**:刻意构造覆盖率刚好高于 60%(即缺失率 40%)但实际仅在少数股票上有效的因子,规避校验。
* **多因子拼接绕过相关性约束**:将一个完整因子人为拆分成多个高度相关的子因子分别提交,意图占据更多排名席位。
* **轮换提交刷新排名**:对同一因子做无实质改动的微调反复提交,仅为触发评估或刷新公榜显示。
* **反向因子滥用**:在因子方向不显著时,仅通过加负号来构造"新因子"。
### 身份与协作类违规
* **多账号参赛**:同一自然人注册多个账号、加入多个队伍。
* **跨队伍代码 / 因子共享**:不同队伍之间共享因子代码、模型权重、关键 prompt;包括以"师门内部分工"、"实验室共享"为名的分发。
* **代提交**:他人代为编写并提交参赛作品,本人对作品无实质贡献。
* **串通刷分**:多个队伍合谋调整提交策略,意图共同抬高某一方排名或压制竞争对手。
### AI 赛道专项违规
* **伪 AI 应用**:以 AI 之名包装人工构造的因子(例如:用 LLM 仅做最后的"翻译"或"美化",因子实质仍为人工设计)。
* **AI 输出造假**:在 AI 应用说明文档中虚构 AI 调用记录、prompt、训练日志。
* **AI 参与度虚报**:在决赛阶段对"AI 参与度"的描述与实际代码不符。
### 检测机制
主办方将通过以下机制进行违规检测,参赛者提交即视为同意接受:
* **静态代码分析**:扫描提交代码中的可疑模式(如时间索引偏移、外部网络请求、数据外联)。
* **因子相关性聚类**:对全场入池因子做相关性矩阵分析,识别异常聚簇。
* **跨队伍指纹比对**:比对不同队伍提交代码的结构相似度、变量命名、注释风格。
* **运行时审计**:抽样队伍代码在隔离环境中复现,比对因子数据与队伍声称的逻辑是否一致。
* **AI 赛道专项审计**:对入围决赛的 AI 赛道队伍,要求复现核心 AI 调用链路。
## 规则版本与变更
* **规则版本说明**:当前比赛规则为**初拟版本**,可能在内测阶段遇到不可抗的工程或评估问题(如数据接口变更、评估算法瓶颈、第三方服务异常等)。**最终以"内测结束、正式比赛开始前"发布的规则版本为准**,请参赛者持续关注官方公告与社群通知。
* **比赛期间的规则调整权**:为保障公平性,**主办方保留在比赛进行期间修订规则、调整评估口径、增补反作弊机制的权利**。规则调整将兼顾已提交作品的处理方式(如重新评分、保留历史得分作为参考、给予合理的代码调整窗口等),尽量降低对正常参赛队伍的影响。
* **变更类型与提前量**:
| 变更类型 | 举例 | 提前通知量 |
|---|---|---|
| 重大变更 | 评分公式修改、提交规范调整、赛程顺延 | ≥ 48 小时 |
| 一般变更 | 公示信息字段调整、本地工具版本更新 | ≥ 24 小时 |
| 紧急修订 | 反作弊补丁、严重数据 / 平台 Bug 修复、安全漏洞响应 | 即时通知,事后补充说明 |
* **变更通知渠道**:官网公告、官方社群(微信 / QQ 群)置顶、平台站内信,三个渠道至少**两个**同步发布,以站内信送达时间为正式生效时间。
* **历史版本留档**:所有规则版本将在官网保留可追溯的历史记录,便于参赛者核对自己提交时所依据的规则;版本号采用"主版本.次版本"格式,重大变更升级主版本号。
## 数据与平台免责
* **数据使用范围**:比赛数据仅供**赛事评估与学习研究**使用,严禁外传、商用、上传至公开仓库或用于本赛事以外的任何场景,包括赛事结束后。一经发现,主办方将依法追究责任。
* **数据保密期限**:本赛事所提供的高频快照、PIT 财务数据等敏感数据的保密义务**长期有效**,不因比赛结束而解除。
* **数据准确性**:主办方已对数据做必要的清洗与校验,但不对数据的绝对准确性、完整性作出保证;因数据问题导致的因子表现波动,**一般情况下不作为评估申诉的依据**,但严重数据错误(如批量缺失、字段错位、复权异常)经核实后会触发统一重算,并向所有受影响队伍同步说明。
* **平台稳定性**:BigQuant 平台已做高可用部署,但仍可能因不可抗力(机房故障、网络中断、第三方依赖异常等)出现短时不可用。因平台故障导致的提交延误,主办方将根据故障时长合理顺延截止时间或取消该时段的评估结果,**不对参赛者的算力消耗、时间投入作经济补偿**。
* **算力配额**:CPU Notebook ≤ 3 小时 / 次,AI 赛道 GPU Notebook ≤ 6 小时 / 次(详见介绍文档"代码要求")。超出配额导致的运行失败由参赛者自行负责。
* **结果不构成投资建议**:本赛事所有因子、模型、回测结果及衍生分析仅供学术研究与赛事评估使用,**不构成任何形式的投资建议**。任何人据此进行实盘投资所产生的盈亏,主办方、平台方及合作方均不承担责任。
## 参赛者责任
### 代码合规与安全
* 参赛者需对自己提交的代码负责,不得包含:
* 恶意代码、后门、未授权访问平台资源的逻辑;
* 试图规避平台沙箱、网络隔离、资源限制的代码;
* 试图获取其他队伍提交内容、评估中间结果的代码。
* 一经发现,立即按 L4 处理(取消资格),并保留追究法律责任的权利。
### 5第三方依赖
* 若参赛者使用了开源库、预训练模型、外部 API 等第三方资源,需自行确认其许可协议**允许竞赛及商业评审场景使用**。
* 由第三方依赖引发的版权 / 许可争议,由参赛者自行承担;主办方有权要求队伍替换有争议的依赖。
### 个人信息与肖像
* 参赛者报名时提供的个人信息仅用于赛事相关用途,主办方将依法保护,但参赛者需保证所提供信息真实有效。
* 决赛入围队伍同意主办方在赛事宣传中使用其**姓名、学校、队名、决赛影像**;如需保留匿名权利,须在决赛入围确认时书面提出。
### 内测与冻结期约束
* 内测阶段(2026-06-08 至 2026-06-18)的提交不计入初赛得分。
* 初赛截止后的候选因子(每队不超过 2 个,详见介绍文档)一经选定不得修改;私榜阶段,参赛者**不得新增或修改任何因子的构建代码**。
## 申诉与最终解释
### 申诉流程
* **申诉范围**:评估结果争议、违规处理异议、数据严重错误等。
* **申诉渠道**:联系赛事运营人员,附必要的证据(截图、日志、代码片段等)。**不接受**通过非官方渠道(私下联系评委、社群刷屏等)的申诉。
* **响应时限**:
| 申诉类型 | 首次响应 | 处理结论 |
|---|---|---|
| 一般申诉(评估结果、公示信息) | 5 个工作日内 | 10 个工作日内 |
| 违规处理异议(针对 L3 / L4) | 48 小时内 | 7 个工作日内 |
| 紧急申诉(涉及截止时间、关键数据) | 24 小时内 | 与紧急修订一并处理 |
* **重复申诉**:同一事项的重复申诉、无新证据的申诉,组委会有权不再单独答复。
### 最终解释权
本赛事所有规则的最终解释权归 **BigAlpha 2026 大赛组委会**所有。规则中文版本与任何翻译版本存在歧义时,以**中文版本为准**。
---
> **承诺**:报名即视为已阅读并同意本规则全部条款。如有疑问,请在报名前通过官方渠道咨询;报名后再以"未注意到某条规则"为由的申诉,组委会不予采纳。
>

