慧化小课堂 · AI + 化学系列课程

把 AI 讲进化学现场,让课程变成可交付能力

面向化学背景的编程小白,用真实科研场景系统学习 Python、实验数据处理、分子结构、深度学习和 AI 化学项目。

5 核心模块
20 总课时
5 实战项目
1 Capstone
学习路径建议

数据先行,学完分子处理再进入深度学习

每个模块均可独立选修,但建议至少完成模块一后再学习其他模块。

模块一Python 基础
模块二数据科学
模块三化学信息学
模块四深度学习应用
模块五AI + 化学
详细课程大纲

五个模块,每个模块都有清晰阶段与产出

模块一:Python 基础

从零开始,让电脑听懂你的化学指令

课程定位:面向完全零基础的化学专业学生,用化学实验中的类比讲解编程概念,不背语法、不考理论,目标是让学员“能看懂代码、能改代码、能自己写小脚本”。

阶段 1

破冰与装备:告别环境配置劝退(1课时)

  • 安装 Anaconda 全家桶;
  • 了解 Jupyter Notebook 像实验记录本一样写代码;
  • 第一行代码:打印 "Hello, My Lab!";
  • 安装常用科学计算库(numpy, pandas, matplotlib)。
产出:配置好 Python 科研编程环境。
阶段 2

变量与计算:你的第一个“化学计算器”(1课时)

  • 变量 = 贴了标签的试剂瓶(如 mw_water = 18.015);
  • 用 Python 计算分子量、摩尔浓度、投料比;
  • 字符串处理:格式化化学式输出(如 "C6H12O6")。
产出:写一个自动计算溶液配制用量的脚本。
阶段 3

数据结构:样品架与标签柜(1课时)

  • 列表(List):存储一组反应温度 [25, 60, 80, 100];
  • 字典(Dict):存储反应条件 {"溶剂": "THF", "温度": 60, "时间": "2h"};
  • 元组与集合:不可变数据与去重(去除重复的 CAS 号)。
产出:用字典整理一组反应的数据。
阶段 4

流程控制:让代码替你“做决定”(1课时)

  • for 循环:批量处理 96 孔板数据;
  • if/elif/else:根据熔点范围判断化合物状态;
  • 函数:把常用的计算封装成“小工具”(如 def 计算产率())。
产出:写一个批量计算系列化合物产率的脚本。

本模块全程使用化学场景示例,不讲计算机原理,只讲“怎么在实验室用起来”。

模块二:数据科学

告别 Excel 手动操作,用代码处理实验数据

课程定位:化学实验中产生大量表格数据(HPLC、GC-MS、UV-Vis、电化学工作站导出的 CSV/Excel),本模块教会学员用 Pandas 和 Matplotlib 高效处理、清洗、分析、可视化数据。

阶段 1

Pandas 入门:实验数据的“电子表格”(1课时)

  • Series 和 DataFrame:理解“行是样品,列是变量”;
  • 读取 CSV/Excel:将 HPLC、GC-MS 导出数据导入 Python;
  • 查看数据概览:.head(), .info(), .describe()。
产出:成功导入一个真实的实验数据文件并查看基本信息。
阶段 2

数据清洗:实验室数据的“提纯”(1课时)

  • 处理缺失值:某个反应没做怎么办(dropna / fillna);
  • 剔除离群值:产率 200% 的数据点怎么处理;
  • 数据类型转换:把 "25°C" 变成数值 25。
产出:清洗一份“脏”实验数据,得到干净表格。
阶段 3

数据操作与分析:一键搞定重复劳动(1课时)

  • 筛选与切片:选出所有温度 > 80°C 的反应;
  • 分组与聚合:按催化剂分组计算平均产率;
  • 合并多个表格:把 30 个反应数据文件合并成一个 Master Table;
  • 实战:计算平均值、标准差、置信区间。
产出:从多份原始数据合并生成一份分析报告表格。
阶段 4

数据可视化:画出导师挑不出毛病的图(1课时)

  • Matplotlib 基础:折线图(动力学曲线)、散点图(催化剂筛选);
  • Seaborn 美化:一键调整颜色、主题、字体;
  • 论文级图表配置:DPI=300、字体大小、图例位置;
  • 实战:绘制紫外-可见吸收光谱图或循环伏安图。
产出:一张可直接用于组会汇报或论文补充材料的图表。

所有案例数据均来自真实化学实验场景,学完就能在课题组里“降维打击”Excel 手动党。

模块三:化学信息学

让计算机“看懂”分子结构

课程定位:化学信息学是 AI+化学的“基础设施”。本模块教会学员用 RDKit 处理分子结构、计算化学描述符、进行分子相似性搜索和虚拟筛选,为后续深度学习建模提供“原材料”。

阶段 1

分子表示:计算机眼中的化学语言(1课时)

  • SMILES 是什么?CCO = 乙醇,c1ccccc1 = 苯(像化学简式一样简单);
  • SMILES 的编写规则:分枝、环、芳香键;
  • InChI 与分子指纹:类似化合物的“身份证”和“指纹图谱”;
  • RDKit 入门:从 SMILES 生成 2D 分子结构图。
产出:能用 RDKit 把 SMILES 字符串变成可视化的分子图。
阶段 2

分子描述符:把结构变成“数字”(1课时)

  • 用 RDKit 计算常见描述符:分子量、LogP、HBD/HBA、TPSA、可旋转键数;
  • 批量计算:导入 1000 个化合物 SMILES,批量计算全部描述符;
  • 理解“描述符空间”:每个分子是高维空间中的一个点;
  • 导出为 CSV:给后续深度学习模型准备特征矩阵。
产出:从一个化合物列表生成完整的描述符表格。
阶段 3

分子相似性与虚拟筛选(1课时)

  • 分子指纹(Morgan Fingerprints):把分子结构编码成 0/1 向量;
  • Tanimoto 系数:量化“两个分子有多像”(0~1 之间的数值);
  • 相似性搜索:给定一个已知活性分子,在化合物库中找到最相似的分子;
  • 虚拟筛选:用 Lipinski 五规则(Rule of Five)筛选类药分子。
产出:对一个化合物库做虚拟筛选,找出候选分子。
阶段 4

化学数据库与数据获取(1课时)

  • PubChem、ChEMBL、ZINC 等化学数据库介绍;
  • 用 Python 调用 PubChem API 批量获取化合物数据;
  • 从文献 PDF 或网站中提取结构数据;
  • 搭建自己的“小分子数据库”:SQLite 存储化合物信息。
产出:编写一个从 PubChem 批量下载化合物信息的脚本。

RDKit 是所有化学信息学操作的“瑞士军刀”,本模块重点培养“用代码批量处理分子”的能力。

模块四:深度学习应用

不写数学公式,也能让神经网络“看懂”化学数据

课程定位:跳过复杂的数学推导,用“乐高积木”的方式理解神经网络。通过 PyTorch 框架,从最简单的线性模型一步步搭建到多层神经网络,并用化学中的回归和分类问题作为实战案例。

阶段 1

深度学习“黑话”破解(1课时)

  • 神经元 = 一个简单的“阀门”(输入→计算→输出);
  • 层 = 流水线上的工位;
  • 激活函数 = 质检员(决定要不要通过);
  • 训练 = 反复实验找到最佳条件(梯度下降 = 调节 pH 值找到最佳点);
  • 用 PyTorch 实现一个“神经元”:输入 x → 输出 y = wx + b。
产出:理解神经网络的核心直觉,跑通第一个 PyTorch 模型。
阶段 2

从线性回归到神经网络:预测化合物性质(1课时)

  • 用单层网络做线性回归:根据分子量预测沸点;
  • 引入激活函数让模型“学会拐弯”:ReLU、Sigmoid;
  • 搭建多层神经网络(MLP):输入 RDKit 计算的分子描述符预测性质;
  • 训练与评估:损失函数、训练轮数、过拟合的判断。
产出:训练一个预测化合物 logP 的简单神经网络。
阶段 3

分类任务:让模型判断“有没有活性”(1课时)

  • 二分类问题:预测化合物是否有抗菌活性(有/无);
  • 多分类问题:预测反应属于 SN1、SN2 还是 E2 机理;
  • 数据集划分:训练集 / 验证集 / 测试集(像实验中的平行样);
  • 评估指标:准确率、精确率、召回率(不用背公式,会用代码算就行)。
产出:训练一个能判断化合物活性的分类模型。
阶段 4

实战:搭建一个完整的化学预测项目(1课时)

  • 从 RDKit 提取特征 → 模型搭建 → 训练 → 评估的全流程打通;
  • 模型保存与加载:训练好的模型像“试剂盒”一样可以随时调用;
  • 用训练好的模型对新化合物做预测;
  • 学习如何“调参”:像优化反应条件一样优化模型。
产出:完成一个端到端的化学性质预测项目。
模块五:AI + 化学

整合所学,完成一个完整的 AI 化学研究项目

课程定位:本模块是整套课程的“收官之作”——将前四个模块的知识串联成一个完整的科研项目,以化学信息学提取的分子特征为输入,用深度学习模型进行预测,串联成“从结构到性质预测”的完整链条。

阶段 1

项目一:AI 辅助的化合物性质预测平台(1课时)

  • 需求:给定一个化合物 SMILES,自动计算其物理化学性质并预测生物活性;
  • 全流程整合:SMILES → RDKit 计算描述符 → 加载预训练模型 → 输出预测结果;
  • 用 Gradio 搭建简单的 Web 交互界面:输入 SMILES,输出预测;
  • 学会保存和复用自己的模型。
产出:一个能运行在本地浏览器的化合物性质预测小工具。
阶段 2

项目二:高通量实验数据分析流水线(1课时)

  • 需求:实验室一次跑完 384 孔板,需要自动分析数据;
  • 自动化脚本设计:读数据 → 清洗 → 计算 IC50 → 绘制剂量-响应曲线;
  • 批量生成报告:为每个化合物自动生成分析图表并保存;
  • 封装成可复用的函数/脚本,下次实验直接用。
产出:一套自动化分析实验数据的 Python 工具包。
阶段 3

AI 编码助教:学会让 AI 替你写代码(1课时)

  • Prompt 工程:S.O.P. 法则(场景→目标→计划)——给出清晰的编程需求;
  • Debug 神技:把报错信息扔给 AI,让它帮你修 bug;
  • 代码解读:让 AI 逐行解释别人写的代码;
  • 重构优化:让 AI 把“能跑”的代码变成“跑得快”的代码;
  • 核心技能:学会提问,比学会写代码更重要。
产出:掌握一套与 AI 协作编程的通用方法论。
阶段 4

毕业设计:自选课题实战 + 展示(1课时)

  • 学员从以下方向中选择一个完成:A. 分子生成:用自编码器(VAE)生成新分子 SMILES;
  • B. 反应产率预测:基于反应条件预测反应产率;
  • C. 光谱预测:用深度学习预测 NMR 化学位移;
  • D. 自选题:学员可结合自己的研究方向自定义题目;
  • 完成项目文档 + 代码,进行课堂展示。
产出:一个完整的 AI+化学迷你项目。
最终收获

学完后,留下能复用的科研资产

科研脚本

溶液配制、产率计算、批量数据处理等可复用 Python 小工具。

分子处理流程

SMILES 可视化、描述符计算、相似性搜索、虚拟筛选脚本。

AI 建模实战

从结构到性质预测的端到端模型,以及可展示的毕业项目。

获取课程表

把你的需求目标告诉我们

个人提升、课题组训练、企业团队内训,均可根据基础和目标选择单模块或完整路径。

预约课程咨询
慧化小课堂联系二维码

扫码咨询课程安排

贾经理  15866847540