CN120853760B

CN120853760B - 氧化镓外延层的预测方法、装置、设备及介质

Info

Publication number: CN120853760B
Application number: CN202511340036.9A
Authority: CN
Inventors: 杨杏; 周正; 张金鑫; 卢耀平; 张晨
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2025-09-19
Filing date: 2025-09-19
Publication date: 2025-12-30
Anticipated expiration: 2045-09-19
Also published as: CN120853760A

Abstract

本申请涉及一种氧化镓外延层的预测方法、装置、设备及介质，其中方法包括：采集MOCVD的工艺参数及其外延层表征数据，并进行数据预处理得到预处理后数据；对预处理后数据进行特征衍生和特征筛选，对特征筛选后数据进行数据集划分生成训练数据集和测试数据集；构建XGBoost回归模型，并进行超参数搜索得到目标最优参数组合，以对XGBoost回归模型进行训练，生成训练后XGBoost回归模型；通过测试数据集对训练后XGBoost回归模型进行测试生成目标XGBoost回归模型；获取MOCVD的待测工艺参数，对待测工艺参数进行外延层预测得到目标外延层厚度和目标半峰全宽变化量。本申请提高了氧化镓外延层的预测准确性。

Description

氧化镓外延层的预测方法、装置、设备及介质

技术领域

本申请涉及半导体材料制备技术领域，尤其涉及一种氧化镓外延层的预测方法、装置、设备及介质。

背景技术

氧化镓（β-Ga2O3）作为一种新兴的超宽禁带半导体材料，在高压功率器件和深紫外探测器等领域展现出巨大应用潜力。然而，采用金属有机化学气相沉积（MOCVD）技术生长高质量氧化镓外延层仍面临诸多技术挑战。首先，在工艺控制方面，前驱体材料（如三甲基镓与氧气）容易发生气相预反应，导致外延层表面形貌恶化，生长均匀性难以控制。其次，外延生长过程涉及复杂的多物理场耦合效应，包括气相输运、表面吸附和热解反应等动态过程，这些因素相互影响且具有强非线性特征，使得工艺参数优化变得异常困难。

现有技术中，研究人员尝试通过实验试错法来优化工艺参数，但这种方法效率低下且成本高昂。虽然部分研究尝试引入机器学习技术进行工艺优化，但现有模型普遍存在以下问题：一是采用静态建模方式，无法准确反映外延生长的动态过程特征，导致外延层的预测准确性较低；二是模型训练所需数据量大，而实际MOCVD实验成本高昂导致样本量有限，容易产生过拟合现象，使得预测精度有限；三是模型可解释性差，难以从预测结果反推出具体的工艺改进方向。此外，传统方法在特征工程方面存在不足，无法有效处理工艺参数之间的复杂交互作用，导致预测精度难以满足实际生产需求。

发明内容

本申请实施例的目的在于提出一种氧化镓外延层的预测方法、装置、设备及介质，以提高氧化镓外延层的预测准确性。

为了解决上述技术问题，本申请实施例提供一种氧化镓外延层的预测方法，包括：

采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据；

对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集；

构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型；

通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型；

获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。

为了解决上述技术问题，本申请实施例提供一种氧化镓外延层的预测装置，包括：

数据采集模块，用于采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据；

数据处理模块，用于对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集；

模型训练模块，用于构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型；

模型测试模块，用于通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型；

外延层预测模块，用于获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算机设备，包括，一个或多个处理器；存储器，用于存储一个或多个程序，使得一个或多个处理器实现上述任意一项所述的氧化镓外延层的预测方法。

为解决上述技术问题，本发明采用的一个技术方案是：一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的氧化镓外延层的预测方法。本发明实施例提供了一种氧化镓外延层的预测方法、装置、设备及介质。其中，方法包括：采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据；对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集；构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型；通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型；获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。本发明实施例通过构建XGBoost回归模型结合灰狼优化算法进行超参数搜索，并处理工艺参数间的复杂关系，能够准确预测外延层厚度和半峰全宽变化量，具有提升工艺优化效率、增强模型泛化能力以及实现动态更新的优点，从而有利于提高氧化镓外延层的预测准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的氧化镓外延层的预测方法流程的实现流程图；

图2是本申请实施例提供的氧化镓外延层的预测方法第一中子流程的实现流程图；

图3是本申请实施例提供的氧化镓外延层的预测方法第二中子流程的实现流程图；

图4是本申请实施例提供的氧化镓外延层的预测方法第三中子流程的实现流程图；

图5是本申请实施例提供的氧化镓外延层的预测方法第四中子流程的实现流程图；

图6是本申请实施例提供的氧化镓外延层的预测方法第五中子流程的实现流程图；

图7是本申请实施例提供的氧化镓外延层的预测方法第六中子流程的实现流程图；

图8是使用XGBoost算法后模型在训练数据集中对厚度和半峰全宽变化量的预测拟合效果示意图；

图9是使用XGBoost算法后模型在测试数据集中对厚度和半峰全宽变化量的预测拟合效果；

图10 目标XGBoost回归模型指导下制备出的高质量外延层表征示意图；

图11是本申请实施例提供的氧化镓外延层的预测装置示意图；

图12是本申请实施例提供的计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下面结合附图和实施方式对本发明进行详细说明。

需要说明的是，本申请实施例所提供的氧化镓外延层的预测方法一般由服务器执行，相应地，氧化镓外延层的预测装置一般配置于服务器中。

在现有技术中，氧化镓外延层生长过程中存在预反应控制失效、工艺窗口狭窄、缺陷抑制不足以及机器学习模型预测精度低等问题。传统方法依赖试错法调整工艺参数，无法有效处理多物理场耦合和高维参数空间的复杂性，导致外延层厚度波动大、缺陷密度高。现有预测模型因忽略动态过程特征和小样本过拟合，难以实现精准预测，限制了氧化镓器件性能的提升。

为了解决上述问题，现有工艺参数优化方法无法解析参数间的非线性关系，且动态生长过程的特征未被有效提取。通过分析气相输运与表面反应的耦合机制，认识到温度梯度与气体流速的协同效应需通过数据建模量化。为解决模型泛化能力差的问题，提出将物理机理嵌入特征工程，结合智能算法优化模型结构，从而建立工艺参数与外延层质量的映射关系。因此，本申请提出了一种氧化镓外延层的预测方法，包括：采集MOCVD的工艺参数及对应的外延层表征数据并进行预处理；对预处理后数据进行特征衍生和筛选后划分数据集；构建XGBoost回归模型并采用灰狼优化算法搜索超参数组合；通过测试数据集验证模型后，利用目标模型预测外延层参数。

具体地，采集工艺参数和外延层数据后，通过多重插补处理缺失值，采用Z-score标准化消除量纲差异。在特征工程阶段，引入温度与流速的交互项、生长速率的时间导数等动态特征，利用Pearson相关系数筛选出与目标变量强相关的特征子集。构建双任务XGBoost模型时，灰狼算法在预设范围内搜索学习率、树深度等超参数，通过多折交叉验证评估参数组合性能。模型训练过程中，列采样随机选择特征子集以增强泛化能力，二阶泰勒展开逼近温度对扩散系数的影响，提升热力学过程拟合精度。测试阶段采用极端样本验证模型在工艺边界条件下的鲁棒性，最终模型可实时预测不同参数组合下的外延层性能。

请参阅图1，图1示出了氧化镓外延层的预测方法的一种具体实施方式。

需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限，该方法包括如下步骤：

S1：采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据。

具体地，在MOCVD外延生长工艺中，长速、压力、O/Ga比和温度等参数通过非线性耦合作用调控扩散系数Dm（横向热扩散速率）与沉积系数Fn（纵向沉积速率），进而决定外延膜生长模式：当Dm＞Fn时，原子在衬底表面充分扩散形成二维层状生长（2D模式），此时温度的正向调节显著增强扩散能力；而当Dm＜Fn时，沉积主导形成三维岛状生长（3D模式），该过程与压力、O/Ga比的非线性关系密切相关。所以在本申请实施例中，需要采集实际外延实验中的温度、压力、O/Ga比、载气流量、反应室高度等工艺参数，同时采集该外延实验对应的测量结果，也即采集外延层表征数据。其中，外延层表征数据包括外延层的厚度、ΔFWHM（半峰全宽变化量‌）及表面粗糙度。为了保证数据的质量，需要对工艺参数和外延层表征数据进行预处理，得到预处理后数据。

其中，半峰全宽变化量（ΔFWHM）是指外延层与衬底的半峰全宽差值，其直接量化晶体缺陷，该值越大表明外延生长引入的位错、堆垛层错等缺陷越多。

请参阅图2，图2示出了步骤S1的一种具体实施方式，详叙如下：

S11：采集所述MOCVD的所述工艺参数及对应的所述外延层表征数据；

S12：采用多重插补法对所述工艺参和所述外延层表征数据进行缺失值处理，生成缺失值处理后数据；

S13：对所述缺失值处理后数据进行异常值清洗和数据归一化，生成所述预处理后数据。

具体来说，在MOCVD工艺参数预处理过程中，首先通过多重插补法对存在部分缺失的生长温度、载气流量等参数进行数据重建，利用参数间的物理关联性生成符合反应动力学规律的完整数据集。随后采用基于局部离群因子的检测方法，识别并剔除因压力传感器瞬态失效导致的异常沉积速率数据。最后通过Z-score标准化将衬底转速、前驱体分压等参数转换为均值为0、方差为1的标准分布，消除不同量纲参数对模型训练的干扰。这三个处理步骤形成递进式数据优化流程，既保持原始数据的物理意义完整性，又为后续特征工程建立高质量的数据基础。本申请有效解决了工艺参数预处理环节的数据质量问题，通过多重插补重建缺失数据保持参数间的物理关联性，异常值清洗排除干扰噪声，数据归一化消除量纲差异，为后续模型训练提供高保真度的输入数据。该方法显著提升了外延层厚度与半峰全宽预测模型的精度，使工艺参数优化过程建立在可靠的数据基础之上。

其中，多重插补法是指通过建立多个插补模型处理缺失数据的方法，具体可以采用链式方程法或贝叶斯回归模型来实现，通过迭代生成多个完整数据集后合并分析，保留变量间的非线性关系。该方法相较于单一插补能有效避免因数据缺失导致的信息偏差，确保后续模型训练的输入数据符合真实物理规律。异常值清洗是指基于统计分布特征识别并剔除异常数据点的方法，具体可以采用基于四分位距的阈值判定或基于密度聚类的离群点检测算法来实现，例如通过DBSCAN算法识别偏离主要数据簇的孤立点。该步骤能够消除因设备瞬时故障或测量误差引入的噪声干扰，保证训练数据的可靠性。数据归一化是指将不同量纲参数映射至统一数值范围的方法，具体可以采用最小-最大标准化或Z-score标准化来实现，例如将温度参数从300-800℃线性转换至0-1区间。该处理可消除因参数单位差异导致的模型权重分配失衡，提升梯度下降算法的收敛效率。

S2：对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集。

具体地，采用特征工程对预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对特征筛选后数据进行数据集划分，生成训练数据集和测试数据集。

其中，特征衍生是指创建物理交互项和动态过程变量，具体可以将温度梯度与气体流速的乘积作为新特征，表征热力学耦合效应。

请参阅图3，图3示出了步骤S2的一种具体实施方式，详叙如下：

S21：基于所述预处理后数据创建物理交互特征和添加动态过程特征，生成衍生特征数据；

S22：计算所述衍生特征数据中所有参数的Pearson相关系数矩阵，并基于所述Pearson相关系数矩阵进行特征过滤，生成所述特征筛选后数据；

S23：按照预设划分比例将所述特征筛选后数据进行数据集划分，生成所述训练数据集和所述测试数据集。

具体地，在预处理后的数据基础上，首先通过物理交互特征的构建，将温度、气体流速等独立参数进行非线性组合，生成能够反映参数协同效应的新特征，例如将温度平方与气体流速的倒数相乘，以模拟热力学与流体动力学的交互作用。随后添加动态过程特征，例如计算相邻时间点的生长速率差值，以表征外延层厚度变化的加速度。接着对所有衍生特征进行Pearson相关系数计算，通过设定阈值过滤掉与目标变量相关性低于0.3的特征，消除冗余信息。最后采用分层随机抽样方法，按照7:3的比例将筛选后的数据划分为训练集和测试集，确保两个数据集在厚度和半峰全宽值的分布上保持一致。

其中，物理交互特征是指通过将不同工艺参数进行数学组合生成的复合特征，具体可以采用将温度与气体流速相乘或取对数变换的方式来实现，用于表征参数间的非线性耦合关系。动态过程特征是指反映外延生长过程中时间序列变化的特征，具体可以采用生长速率随时间变化的导数或积分运算来实现，用于捕捉动态生长规律。Pearson相关系数矩阵是指用于量化各特征与目标变量之间线性相关程度的统计指标，具体可以采用计算协方差与标准差比值的方式来实现，用于筛选出与目标变量显著相关的特征。预设划分比例是指将数据集划分为训练集和测试集的比例参数，具体可以采用随机分层抽样的方式来实现，用于保证数据分布的均衡性。

S3：构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型。

具体地，采用XGBoost算法构建XGBoost回归模型，该XGBoost回归模型为双任务回归树结构，分别用来预测外延层的厚度和半峰全宽变化量。灰狼优化算法是指模拟灰狼群体狩猎行为的元启发式算法，具体可以通过迭代更新α、β、δ狼的位置，在超参数空间中寻找最优解，提高搜索效率。

请参阅图4，图4示出了步骤S3的一种具体实施方式，详叙如下：

S31：构建所述XGBoost回归模型，其中，所述XGBoost回归模型为双任务回归树结构，所述XGBoost回归模型的第一任务回归树分支通过最小均方误差函数进行厚度预测，所述XGBoost回归模型的第二任务回归树分支通过平均绝对误差函数进行半峰全宽变化量预测。S32：采用所述灰狼优化算法基于所述训练数据集进行超参数搜索，得到所述目标最优参数组合。S33：基于所述目标最优参数组合对所述XGBoost回归模型进行迭代训练，并在迭代训练过程中，采用列采样的方式对所述XGBoost回归模型中每颗树进行随机选择特征子集，以及通过二阶泰勒展开拟合温度对扩散系数的指数关系。S34：当迭代训练次数达到预设次数或当前迭代生成的模型损失小于预设阈值时，停止迭代训练，生成所述训练后XGBoost回归模型。

具体地，在模型构建阶段，针对外延层厚度与半峰全宽变化量的物理特性差异，分别设计最小均方误差和平均绝对误差作为损失函数，通过双分支结构实现不同误差准则的独立优化。在超参数优化阶段，灰狼算法通过模拟狼群等级制度与协作捕猎机制，在预设参数范围内进行全局搜索，其动态调整搜索步长的特性可有效平衡探索与开发过程。在模型训练过程中，列采样策略通过随机屏蔽部分特征迫使每棵树学习不同的特征组合，从而提升模型对噪声特征的鲁棒性。同时在模型训练中，使用正则化项（L1/L2）直接约束树结构的复杂度，防止对局部工艺窗口的过拟合。例如当某次实验的异常压力值导致Fn突变时，惩罚机制可抑制模型对该噪声数据的过度响应。针对温度参数对外延层质量的非线性影响，通过二阶泰勒展开在损失函数中引入温度梯度的高阶导数项，使得模型能够准确捕捉温度变化对材料扩散速率的指数级作用。本申请解决了现有模型在多任务预测中精度失衡、超参数优化效率低下及动态过程建模不足的问题。

其中，双任务回归树结构是指将厚度预测与半峰全宽变化量预测分别作为独立回归任务，通过共享特征层实现多目标联合学习，具体可以采用并行树结构构建两个损失函数分支来实现，该结构能够解决不同预测目标的误差分布差异问题。灰狼优化算法是指模拟灰狼群体狩猎行为的群体智能算法，具体可以采用α、β、δ狼引导的包围-追踪机制进行超参数空间搜索，该算法能够克服传统网格搜索在高维参数空间中的局部最优陷阱。列采样是指在每棵树的生成过程中随机选取部分特征进行节点分裂，具体可以采用无放回抽样方式实现，该方式能够降低特征间的共线性干扰。二阶泰勒展开是指利用二次多项式逼近温度与扩散系数的指数函数关系，具体可以在损失函数计算时引入二阶导数项实现，该方法能够精确拟合外延生长过程中的非线性热力学效应。

请参阅图5，图5示出了步骤S32的一种具体实施方式，详叙如下：

S321：基于所述训练数据集随机生成预设数量的超参数组合；

S322：对每一组所述超参数组合进行多折交叉验证，生成均方误差值；

S323：基于所述均方误差值的排序更新所述超参数组合，并基于更新后的超参数组合重新进行多折交叉验证，以迭代生成新的均方误差值；

S324：基于所述新的均方误差值确定所述目标最优参数组合。

具体地，在灰狼优化算法框架下，首先通过随机采样生成覆盖参数空间不同区域的初始种群。每个超参数组合需经历多折交叉验证过程，计算各折验证集的均方误差平均值作为适应度评价指标。根据误差值对种群个体进行排序，保留适应度高的个体作为领导狼群，同时引入随机变异操作生成新个体补充种群。通过迭代更新机制，使搜索过程逐步聚焦于高潜力参数区域，同时维持种群多样性防止陷入局部最优。在每次迭代中，多折交叉验证有效降低单次数据划分带来的评估偏差，确保参数优化的稳定性。最终经过预设迭代次数后，选取验证误差最小的超参数组合作为全局最优解。

其中，预设数量的超参数组合是指在参数空间中随机选取的初始候选解集合，具体可以采用均匀分布或拉丁超立方抽样方法来实现，为后续优化过程提供多样性基础。多折交叉验证是指将训练数据划分为多个互斥子集进行循环验证，具体可以采用分层抽样方式保持数据分布一致性，用于评估超参数组合的泛化性能。均方误差值排序更新是指根据模型验证结果对候选解进行优劣排序，具体可以采用精英保留策略结合随机扰动机制来实现，在保留优势解的同时避免早熟收敛。

S4：通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型。

具体地，在模型验证阶段，通过留出测试集验证预测厚度与FWHM的准确性，确保在不同温度区间和O/Ga比极端工艺窗口下依然保持较高泛化性能。

请参阅图6，图6示出了步骤4的一种具体实施方式，详叙如下：

S41：通过所述训练后XGBoost回归模型基于所述测试数据集进行外延层预测，得到测试外延层厚度和测试半峰全宽变化量；

S42：基于所述测试外延层厚度和所述测试半峰全宽变化量计算验证指标，并基于所述验证指标判断测试是否通过，得到判断结果，其中，所述验证指标包括决定系数、最小均方根误差和平均绝对误差；

S43：若所述判断结果为测试通过，则构建极端专项样本，并基于所述极端专项样本对所述训练后XGBoost回归模型进行模型测试，若测试通过，得到所述目标XGBoost回归模型。

具体地，在模型测试阶段，首先利用常规测试集进行初步验证，通过计算决定系数判断模型对厚度与半峰全宽变化趋势的捕捉能力，同时结合均方根误差与平均绝对误差分析预测值的离散程度与误差幅值分布。当三项指标均达到预设阈值时，进一步构建包含极端工艺参数的专项样本集，例如将反应腔压力设置为标准工况的1.5倍，或使前驱体流速达到理论沉积速率的临界值，通过此类样本测试模型在参数空间边缘区域的预测稳定性。若模型在极端样本上的验证指标仍符合要求，则判定其具备工业应用所需的鲁棒性。

其中，测试数据集是指从特征筛选后数据中划分出的用于模型性能评估的数据子集，具体可以采用预设划分比例将特征筛选后数据随机分割为训练集与测试集来实现，其作用在于提供独立于训练过程的样本以验证模型泛化能力。验证指标是指用于量化模型预测性能的数学评价标准，具体可采用决定系数反映预测值与真实值的趋势吻合度，均方根误差衡量预测偏差的整体水平，平均绝对误差表征误差的绝对幅度，其组合应用可全面评估模型在常规工况下的预测精度。极端专项样本是指模拟工艺参数极端组合的测试数据，具体可通过参数空间边界采样或物理场仿真生成，其作用在于验证模型在临界条件下的稳定性，例如在接近气相预反应阈值的高温高压区域构建样本，以测试模型对异常工况的响应能力。

本申请实施例采用XGBoost算法进行外延层的预测智能优化体现在以下方面：（1）利用特征重要性排序识别关键控制因子，例如发现温度对Dm的贡献度达62%，而O/Ga比对Fn的权重超过45%，指导工艺员优先调整核心参数。（2）通过列采样（Column Subsampling）排除冗余参数干扰，如当载气流量与压力存在共线性时，随机特征子集选择可增强模型鲁棒性结合灰狼优化（GWO）等智能算法进行超参数搜索，在n_estimators（100-1000）、max_depth（3-10）、learning_rate（0.01-0.3）的预设空间内，通过5折交叉验证找到全局最优解，将工艺参数推荐效率提升3倍以上。这种数据驱动方法已实现将2D/3D生长模式切换精度控制在±5%以内，同时使晶体质量的优化周期从传统方法的20-30次实验缩减至5-8次。

S5：获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。

具体地，上述步骤已经XGBoost回归模型进行训练和测试，生成目标XGBoost回归模，将目标XGBoost回归模型进行模型部署。在实际需要进行预测时，获取MOCVD的待测工艺参数，并通过目标XGBoost回归模型基于待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。

请参阅图7，图7示出了步骤S5之后的一种具体实施方式，详叙如下：

S61：将所述待测工艺参数、所述目标外延层厚度和所述目标半峰全宽变化量存储于历史数据库中；

S62：当所述目标XGBoost回归模型的预测次数达到预设预测次数时，通过所述历史数据库中的数据对所述目标XGBoost回归模型进行动态增量更新，得到更新后的XGBoost回归模型。

具体地，在每次完成外延层预测后，工艺参数、预测厚度及半峰全宽数据被自动写入历史数据库，形成包含时间戳的工艺记录。当累计预测次数达到预设阈值时，系统从数据库中提取新增数据，采用增量学习算法对XGBoost回归模型的叶子节点权重进行迭代更新。在此过程中，模型保留原有树结构，仅调整节点分裂阈值及权重分配，通过限制每次更新的参数调整幅度避免过拟合。同时，采用重要性采样技术筛选与当前工艺状态相关性高的历史数据参与训练，减少冗余计算。

其中，历史数据库是指用于存储工艺参数、外延层厚度和半峰全宽变化量的结构化数据存储系统，具体可采用时序数据库或关系型数据库实现，用于积累随时间变化的工艺过程数据，为模型更新提供数据基础。动态增量更新是指在不重新训练全部历史数据的前提下，仅基于新增数据调整模型参数，具体可采用在线梯度下降算法或滑动窗口采样方法实现，通过局部参数优化降低计算资源消耗，同时保持模型对工艺漂移的适应性。预设预测次数是指触发模型更新的条件阈值，具体可根据工艺稳定性或设备维护周期设定，例如每完成10次预测后启动更新流程，确保模型更新频率与工艺变化速率相匹配。

请参阅图8至图10，图8是使用XGBoost算法后模型在训练数据集中对厚度和半峰全宽变化量的预测拟合效果示意图；图9是使用XGBoost算法后模型在测试数据集中对厚度和半峰全宽变化量的预测拟合效果；图10 目标XGBoost回归模型指导下制备出的高质量外延层表征示意图。

本申请实施例通过XGBoost算法实现了MOCVD工艺参数的智能解析与预测，其技术优势在膜厚和晶体质量预测中得到充分验证。如图8和图9所示，在一个具体实施例中，膜厚预测的训练集精度达R²（决定系数）=0.995（RMSE（均方根误差）=22.903，MAE（平均绝对误差）=17.059），测试集保持R²=0.978（RMSE=54.309，MAE=36.517），证明模型对生长速率的物理规律捕捉精准；ΔFWHM预测在训练集达到R²=0.922（RMSE=9.410，MAE=6.918），测试集R²=0.859且RMSE=13.539，MAE=9.887，显著优于传统经验模型的同工况下R²=0.282， RMSE=30.547，MAE=20.557。特别在极端工艺窗口（温度>1050℃、O/Ga比<0.2）的测试中，膜厚预测误差较人工试错法降低82.7%（传统方法测试集R²=0.842，RMSE=144.681，MAE=94.231），而ΔFWHM的MAE=7.816较传统方法提升63.4%，这源于模型通过二阶泰勒展开精确解析温度对Dm的指数控制规律（Dm ∝ exp(-Ea/kT)）及压力-O/Ga比交互效应，实现的工艺稳定性强化，为半导体外延制造提供了兼具理论深度与工程可靠性的智能解决方案。

通过模型的不断迭代和数据库的扩充，模型对于外延结果的预测准确性越来越高。最终，在模型指导下，根据以往的历史数据，仅通过五次模型迭代即获得了如图10所示的β-Ga2O3高质量同质外延层，摇摆曲线半峰全宽(FWHM)仅为75.6 arcsec，表面粗糙度仅为0.619nm，且呈现出明显的二维生长形貌，大幅减小了工艺开发的成本。

本申请实施例中，采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据；对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集；构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型；通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型；获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。本发明实施例通过构建XGBoost回归模型结合灰狼优化算法进行超参数搜索，并处理工艺参数间的复杂关系，能够准确预测外延层厚度和半峰全宽变化量，具有提升工艺优化效率、增强模型泛化能力以及实现动态更新的优点，从而有利于提高氧化镓外延层的预测准确性。

本申请实现了外延层生长过程的精准预测与工艺参数优化。数据预处理和特征工程有效提取关键影响因素，解决了高维参数空间降维难题。优化后的XGBoost模型同步预测厚度与半峰全宽变化量，为工艺调整提供双重约束。动态增量更新机制使模型持续适应设备状态变化，保障长期预测可靠性。该方法显著提升了外延层均匀性和缺陷抑制能力，为高性能氧化镓器件的制备奠定基础。

请参考图11，作为对上述图1所示方法的实现，本申请提供了一种氧化镓外延层的预测装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图11所示，本实施例的氧化镓外延层的预测装置包括：数据采集模块71、数据处理模块72、模型训练模块73、模型测试模块74及外延层预测模块75，其中：

数据采集模块71，用于采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据；

数据处理模块72，用于对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集；

模型训练模块73，用于构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型；

模型测试模块74，用于通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型；

外延层预测模块75，用于获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量。

进一步地，模型训练模块73包括：

模型构建单元，用于构建所述XGBoost回归模型，其中，所述XGBoost回归模型为双任务回归树结构，所述XGBoost回归模型的第一任务回归树分支通过最小均方误差函数进行厚度预测，所述XGBoost回归模型的第二任务回归树分支通过平均绝对误差函数进行半峰全宽变化量预测；

超参数搜索单元，用于采用所述灰狼优化算法基于所述训练数据集进行超参数搜索，得到所述目标最优参数组合；

训练单元，用于基于所述目标最优参数组合对所述XGBoost回归模型进行迭代训练，并在迭代训练过程中，采用列采样的方式对所述XGBoost回归模型中每颗树进行随机选择特征子集，以及通过二阶泰勒展开拟合温度对扩散系数的指数关系；

模型生成单元，用于当迭代训练次数达到预设次数或当前迭代生成的模型损失小于预设阈值时，停止迭代训练，生成所述训练后XGBoost回归模型。

进一步地，超参数搜索单元包括：

超参数组合生成单元，用于基于所述训练数据集随机生成预设数量的超参数组合；

均方误差值生成单元，用于对每一组所述超参数组合进行多折交叉验证，生成均方误差值；

超参数组合更新单元，用于基于所述均方误差值的排序更新所述超参数组合，并基于更新后的超参数组合重新进行多折交叉验证，以迭代生成新的均方误差值；

基于所述新的均方误差值确定所述目标最优参数组合。

进一步地，模型测试模块74包括：

测试指标生成单元，用于通过所述训练后XGBoost回归模型基于所述测试数据集进行外延层预测，得到测试外延层厚度和测试半峰全宽变化量；

判断结果生成单元，用于基于所述测试外延层厚度和所述测试半峰全宽变化量计算验证指标，并基于所述验证指标判断测试是否通过，得到判断结果，其中，所述验证指标包括决定系数、最小均方根误差和平均绝对误差；

目标模型生成单元，用于若所述判断结果为测试通过，则构建极端专项样本，并基于所述极端专项样本对所述训练后XGBoost回归模型进行模型测试，若测试通过，得到所述目标XGBoost回归模型。

进一步地，数据采集模块71包括：

外延层表征数据采集单元，用于采集所述MOCVD的所述工艺参数及对应的所述外延层表征数据；

缺失值处理单元，用于采用多重插补法对所述工艺参和所述外延层表征数据进行缺失值处理，生成缺失值处理后数据；

数据归一化单元，用于对所述缺失值处理后数据进行异常值清洗和数据归一化，生成所述预处理后数据。

进一步地，数据处理模块72包括：

衍生特征数据生成单元，用于基于所述预处理后数据创建物理交互特征和添加动态过程特征，生成衍生特征数据；

特征筛选单元，用于计算所述衍生特征数据中所有参数的Pearson相关系数矩阵，并基于所述Pearson相关系数矩阵进行特征过滤，生成所述特征筛选后数据；

数据划分单元，用于按照预设划分比例将所述特征筛选后数据进行数据集划分，生成所述训练数据集和所述测试数据集。

进一步地，外延层预测模块75之后还包括：

数据存储单元，用于将所述待测工艺参数、所述目标外延层厚度和所述目标半峰全宽变化量存储于历史数据库中；

动态增量更新单元，用于当所述目标XGBoost回归模型的预测次数达到预设预测次数时，通过所述历史数据库中的数据对所述目标XGBoost回归模型进行动态增量更新，得到更新后的XGBoost回归模型。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图12，图12为本实施例计算机设备基本结构框图。

计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、网络接口83。需要指出的是，图12中仅示出了具有三种组件存储器81、处理器82、网络接口83的计算机设备8，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器81至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器81可以是计算机设备8的内部存储单元，例如该计算机设备8的硬盘或内存。在另一些实施例中，存储器81也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡（SmartMedia Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，存储器81还可以既包括计算机设备8的内部存储单元也包括其外部存储设备。本实施例中，存储器81通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如氧化镓外延层的预测方法的程序代码等。此外，存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器82在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器82通常用于控制计算机设备8的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如运行上述氧化镓外延层的预测方法的程序代码，以实现氧化镓外延层的预测方法的各种实施例。

网络接口83可包括无线网络接口或有线网络接口，该网络接口83通常用于在计算机设备8与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序可被至少一个处理器执行，以使至少一个处理器执行如上述的一种氧化镓外延层的预测方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请保护范围之内。

Claims

1.一种氧化镓外延层的预测方法，其特征在于，包括：

获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量；

所述构建XGBoost回归模型，采用灰狼优化算法基于所述训练数据集进行超参数搜索，得到目标最优参数组合，并基于所述目标最优参数组合对所述XGBoost回归模型进行训练，生成训练后XGBoost回归模型，包括：

构建所述XGBoost回归模型，其中，所述XGBoost回归模型为双任务回归树结构，所述XGBoost回归模型的第一任务回归树分支通过最小均方误差函数进行厚度预测，所述XGBoost回归模型的第二任务回归树分支通过平均绝对误差函数进行半峰全宽变化量预测；

采用所述灰狼优化算法基于所述训练数据集进行超参数搜索，得到所述目标最优参数组合；

基于所述目标最优参数组合对所述XGBoost回归模型进行迭代训练，并在迭代训练过程中，采用列采样的方式对所述XGBoost回归模型中每颗树进行随机选择特征子集，以及通过二阶泰勒展开拟合温度对扩散系数的指数关系；

当迭代训练次数达到预设次数或当前迭代生成的模型损失小于预设阈值时，停止迭代训练，生成所述训练后XGBoost回归模型。

2.根据权利要求1所述的氧化镓外延层的预测方法，其特征在于，所述采用所述灰狼优化算法基于所述训练数据集进行超参数搜索，得到所述目标最优参数组合，包括：

基于所述训练数据集随机生成预设数量的超参数组合；

对每一组所述超参数组合进行多折交叉验证，生成均方误差值；

基于所述均方误差值的排序更新所述超参数组合，并基于更新后的超参数组合重新进行多折交叉验证，以迭代生成新的均方误差值；

基于所述新的均方误差值确定所述目标最优参数组合。

3.根据权利要求1所述的氧化镓外延层的预测方法，其特征在于，所述通过测试数据集对所述训练后XGBoost回归模型进行模型测试，生成目标XGBoost回归模型，包括：

通过所述训练后XGBoost回归模型基于所述测试数据集进行外延层预测，得到测试外延层厚度和测试半峰全宽变化量；

基于所述测试外延层厚度和所述测试半峰全宽变化量计算验证指标，并基于所述验证指标判断测试是否通过，得到判断结果，其中，所述验证指标包括决定系数、最小均方根误差和平均绝对误差；

若所述判断结果为测试通过，则构建极端专项样本，并基于所述极端专项样本对所述训练后XGBoost回归模型进行模型测试，若测试通过，得到所述目标XGBoost回归模型。

4.根据权利要求1所述的氧化镓外延层的预测方法，其特征在于，所述采集MOCVD的工艺参数及对应的外延层表征数据，并对所述工艺参数所述外延层表征数据进行预处理，得到预处理后数据，包括：

采集所述MOCVD的所述工艺参数及对应的所述外延层表征数据；

采用多重插补法对所述工艺参和所述外延层表征数据进行缺失值处理，生成缺失值处理后数据；

对所述缺失值处理后数据进行异常值清洗和数据归一化，生成所述预处理后数据。

5.根据权利要求1所述的氧化镓外延层的预测方法，其特征在于，所述对所述预处理后数据进行特征衍生和特征筛选，得到特征筛选后数据，并对所述特征筛选后数据进行数据集划分，生成训练数据集和测试数据集，包括：

基于所述预处理后数据创建物理交互特征和添加动态过程特征，生成衍生特征数据；

计算所述衍生特征数据中所有参数的Pearson相关系数矩阵，并基于所述Pearson相关系数矩阵进行特征过滤，生成所述特征筛选后数据；

按照预设划分比例将所述特征筛选后数据进行数据集划分，生成所述训练数据集和所述测试数据集。

6.根据权利要求1至5任一项所述的氧化镓外延层的预测方法，其特征在于，所述获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量之后，所述方法还包括：

将所述待测工艺参数、所述目标外延层厚度和所述目标半峰全宽变化量存储于历史数据库中；

当所述目标XGBoost回归模型的预测次数达到预设预测次数时，通过所述历史数据库中的数据对所述目标XGBoost回归模型进行动态增量更新，得到更新后的XGBoost回归模型。

7.一种氧化镓外延层的预测装置，其特征在于，包括：

外延层预测模块，用于获取所述MOCVD的待测工艺参数，并通过所述目标XGBoost回归模型所述目标基于所述待测工艺参数进行外延层预测，得到目标外延层厚度和目标半峰全宽变化量；

所述模型训练模块包括：

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的氧化镓外延层的预测方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的氧化镓外延层的预测方法。