个人信息
- 姓名:虞天
- 邮箱:leoyutian@yeah.net
- blog:blog.loveatcorner.com.cn
- website:demo.loveatcorner.com.cn
应聘岗位
- 数据挖掘工程师
- 大模型应用开发工程师
技能概述
1、拥有五年机器学习算法落地与模型开发经验,深入掌握传统及深度机器学习模型算法(如用于文本分类的TextCNN、用于图像任务的ResNet18等)的原理,并深刻理解其在实际业务场景中的适用性与局限性,具备从0到1的模型开发及落地能力,能够针对具体业务问题设计高效、鲁棒的解决方案,并确保模型在生产环境中的稳定表现。
2、具备两年大语言模型原理与前沿应用开发经验,深刻理解大语言模型的核心原理,熟练运用提示词工程优化模型输出,掌握检索增强生成技术并具备使用Milvus/Faiss/Pinecone等向量数据库构建外部知识库的实际经验,精通SFT/RLHF/IFT/PEFT等模型微调技术,同时深入探索智能体开发并能够基于Autogen、LangChain、LlamaIndex等主流框架设计和实现复杂的多智能体协作系统。
3、具备扎实的软件工程能力与高可扩展性架构设计经验,能够熟练运用算法与数据结构解决复杂的编程问题,在项目开发中坚持良好的代码风格与架构设计,熟练运用设计模式构建高内聚、低耦合的系统模块,确保项目代码具有优秀的可读性、可维护性与可扩展性以支撑业务的快速迭代。
4、秉持基于第一性原理的深度分析与问题解决能力,善于通过拆解复杂问题直达本质进行深度逻辑推导,具备卓越的分析与解决未知难题的能力,能够在数据挖掘与模型开发的关键节点做出准确判断并推动技术方案高效落地。
5、拥有国际视野与卓越的学术及专业表达能力,具备美国常青藤院校的学习与研究经历以及严谨的学术素养,能够熟练运用中英文进行专业技术交流、前沿文献阅读以及高质量文章与专利的撰写,在跨文化协作与技术传播中发挥关键桥梁作用。
教育背景
-
康奈尔大学(美国) | 信息科学 | 硕士 | 2018 - 2020
- 专业方向:计算信息学
- 主修课程:统计学方法、数据驱动的机器学习、数据挖掘、数据可视化、统计应用中的Python编程、R语言编程、面向对象编程与数据结构
-
北京石油化工学院 | 电子工程 | 学士 | 2014 - 2018
- GPA:3.85/4.0
- 基础课程: 高等数学,线性代数,概率论与数理统计
- 获奖经历:一等奖学金一次,二等奖学金一次,三等奖学金二次
工作经历
亚信科技(中国)有限公司 | 大模型算法工程师
2023.05 - 至今 | 杭州
- 主导基于大模型的商客营销助理设计与实现,结合RAG技术和CoT技术实现对话系统的智能性,一线生产效率提升30%,营销转化率达14.1%,较传统营销转化率提升5PP。
- 开发智慧字典插件,设计大模型微调策略,利用LORA技术注入领域知识,优化模型表现,基于vllm框架完成服务的私有化部署,功能上线大数据平台后,省公司1.85万张数据表的字典完整率由10%提升至100%,字典准确率提升至97%,完善存量数据字典的人工成本由3600人天减少至300人天。
杭州大箴科技有限公司 | 算法工程师
2021.09 - 2022.12 | 杭州
- 开发数据圈选流程,通过MinHash + LSH算法近似去重,搭配正反向组合正则,实现每日上亿增量数据的高效过滤。
- 开发文本结构化能力,训练DPCNN和LSTM-CRF模型完成短文本分类与命名实体识别任务,分类准确率达92%,实体F1值达90%
杭州安恒信息股份有限公司 | 算法工程师
2020.05 - 2021.09 | 杭州
- 主导违法网站识别项目,基于TextCNN和ResNet18模型实现涉黄、涉赌等违法内容的精准分类,识别准确率分别达99%和94%。
- 开发网页存活性检测功能,将网站存活率提升至99%,显著降低误报率。
- 利用Single-pass增量聚类算法挖掘黑灰产网站同源模板。
- 模型上线以后,持续为净网活动提供数据支持,累计处理违法网站116,274个,提炼数千套网站模板。
项目经历
1. 基于大模型的商客营销助理
- 项目背景:针对移动政企客户产品的营销工作中存在的人力成本高、推荐效率低的问题,设计并实现了一套的营销推荐对话系统,旨在通过自然语言交互精准捕捉用户需求,提升客户转化率。
- 主要职责:
- 主导技术方案设计,贴合业务需求,梳理多轮对话管理,意图识别模块,知识库检索模块以及推荐决策模块的时序交互逻辑。
- 沟通营销业务员,将复杂营销推荐逻辑转化成提示词中CoT逻辑。
- 协调前后端团队,实现服务的私有化部署与接口联调,支持web,客服系统两种入口
- 技术挑战与解决方案:
- 回复智能性较低:通过内置大模型逻辑链提升系统回复的智能性。
- 业务背景知识偏差:利用高质量结构化知识库优化检索与生成逻辑。
- 项目成果:
- 100%覆盖商客经理,月均使用人数1700+,一线生产效率提升30%
- 营销转化率达14.1%,较传统营销转化率提升 5PP
2. 基于大模型的数据盘点系统插件
- 项目背景:针对传统数据字典维护成本高、准确性不足的问题,开发了一套基于大模型的数据盘点系统插件,旨在提升数据目录的完整性和准确性,支持企业数智化转型。
- 主要职责:
- 协助业务专家,梳理对齐训练数据,补全企业数据中大量存在且意义不明的首字母缩写,行话黑话等领域知识
- 基于llama_factory在内网A40服务器上搭建训练平台,利用LORA技术微调qwen1.5-7B模型,注入业务领域的专有知识
- 基于vllm框架封装高效的推理服务接口
- 对接大数据平台开发团队,完成数据盘点服务的私有化部署
- 技术挑战与解决方案:
- 训练过拟合问题:采用领域知识和通用知识1:1的配比,均衡训练数据分布。
- 生成内容幻觉问题:在模型生成后,使用独立的检索模块对回答进行事实核验,若检测到与 KB 冲突的内容,则触发补充检索或进行重生成
- 项目成果:
- 省公司1.85万张数据表的字典完整率由10%提升至100,数据字典准确率达到97%
- 完善存量数据字典的人工成本由3600人天减少至300人天
3. 文本结构化能力
- 项目背景:针对海量短文本数据中信息抽取与分类的需求,开发高效的文本结构化能力,实现要素信息的精准抽取和结构化存储。
- 主要职责:
- 实现MinHash + LSH算法近似去重算法,搭配自定义的正反向组合正则,实现海量数据的高效圈选
- 基于pytorch实现DPCNN的短文本分类模型的训练和推理流程,针对不同类型的文本任务调配损失和超参数
- 建立精确率(Precision) / 召回率(Recall) / F1 值模型性能指标体系
- 技术挑战与解决方案:
- 短文本语义稀疏:通过引入bert的预训练词向量和自定义词表,提高语义捕捉能力。
- 训练时效不足:重构训练代码支持一机双卡(T4)服务器上的分布式训练
- 项目成果:
- 短文本分类模型准确率提升至92%,命名实体识别模型F1值达90%以上。
- 实现每日上亿增量数据的高效处理,为电商、银行等行业建模提供高质量数据支持。
4. 违法网站识别模型
- 项目背景:响应公安“净网行动”,设计并开发了一套违法网站识别算子,旨在从海量互联网数据中精准分类与实时过滤涉黄、涉赌等违法内容。
- 主要职责:
- 基于TextCNN构建文本分类模型,精准识别违法内容。
- 引入ResNet18模型,优化黑产SEO篡改图片的误报问题。
- 利用single-pass聚类算法挖掘黑灰产网站同源模板。
- 技术挑战与解决方案:
- 黑产SEO篡改问题:采用图像识别、语义特征建模等多模态识别方案,提升检测精度。
- 违法网站模板化干扰:通过增量聚类算法,挖掘违法网站的模板特征,实现全网络扫描引擎上的批量指纹识别。
- 项目成果:
- 涉黄网站和涉赌网站识别准确率分别达99%和94%。
- 每日精准过滤约1,000个违法网站,累计处理超11万条违法网站。
奖项与荣誉
- 2023年,专利《一种基于大模型的资源盘点元数据管理工具》
- 2022年,证书 PMP(项目管理专业人员资格认证)(国际认证)
- 2021年,专利《一种实体识别噪音数据的清洗及建模方法和装置》
- 2020年,专利《一种违法网站识别方法、装置、设备及存储介质》
- 2020年,证书《数据科学专业》(康奈尔大学认证)
兴趣爱好
热爱开源项目开发与技术博客搭建,乐于分享与探索前沿科技;习练太极拳多年,并研读《易经》,在动静平衡中感悟传统文化哲思。