个人信息
- 姓名:虞天
- 性别:男
- 电话:+86 151-6813-1809
- 邮箱:leoyutian@yeah.net
- 地址:浙江省杭州市
- blog:blog.loveatcorner.com.cn
- website:demo.loveatcorner.com.cn
自我描述
1、5年算法开发/研究及实践落地经验,具备良好的数学与算法功底,较好的算法设计、开发、架构、部署能力,熟悉全链路的算法开发细节。
2、理解常见的机器学习方法,熟悉主流的预训练/大语言模型,包括 Bert/Transforer、GPT/InstructGPT/ChatGPT、Lama2 等。理解大模型基础知识及常见微调方法SFT/RLHF/IFT/PEFT。
3、扎实的编程,算法与数据结构能力,熟悉 Python 算法开发及 Linux 常见操作。熟悉Sklearn/TensorFlow/Pytorch 等算法框架;具有大模型应用RAG的研发经验,使用过 Prompt、Langchain、Llamaindex、Agent/Functioncall、Miluvs/Fassis/Pinecone 等大模型主流开发工具。
4、综合能力突出,具备较强的分析与解决问题的能力;拥有美国常青藤院校的学习经历,出色的中英文表达、阅读、文章/专利撰写能力。
教育背景
-
康奈尔大学(美国) | 运筹学 | 硕士 | 2018 - 2020
- 专业方向:计算信息学
- 主修课程:统计学方法、优化计算、数据驱动的机器学习、面向对象编程与数据结构、统计应用中的Python编程
-
北京石油化工学院 | 化学工程 | 学士 | 2014 - 2018
- GPA:3.85/4.0
- 基础课程: 高等数学,线性代数,概率论与数理统计
- 获奖经历:一等奖学金一次,二等奖学金一次,三等奖学金二次
工作经历
亚信科技(中国)有限公司 | 大模型算法工程师
2023.05 - 至今 | 杭州
- 主导基于大模型的商客营销助理设计与实现,结合RAG技术和CoT技术实现对话系统的智能性,一线生产效率提升30%,营销转化率达14.1%,较传统营销转化率提升5PP。
- 开发智慧字典插件,设计大模型微调策略,利用LORA技术注入领域知识,优化模型表现,基于vllm框架完成服务的私有化部署,功能上线大数据平台后,省公司1.85万张数据表的字典完整率由10%提升至100%,字典准确率提升至97%,完善存量数据字典的人工成本由3600人天减少至300人天。
杭州大箴科技有限公司 | 算法工程师
2021.09 - 2022.12 | 杭州
- 开发数据圈选流程,通过MinHash + LSH算法近似去重,搭配正反向组合正则,实现每日上亿增量数据的高效过滤。
- 开发文本结构化能力,训练DPCNN和LSTM-CRF模型完成短文本分类与命名实体识别任务,分类准确率达92%,实体F1值达90%
杭州安恒信息股份有限公司 | 算法工程师
2020.05 - 2021.09 | 杭州
- 主导违法网站识别项目,基于TextCNN和ResNet18模型实现涉黄、涉赌等违法内容的精准分类,识别准确率分别达99%和94%。
- 开发网页存活性检测功能,将网站存活率提升至99%,显著降低误报率。
- 利用Single-pass增量聚类算法挖掘黑灰产网站同源模板。
- 模型上线以后,持续为净网活动提供数据支持,累计处理违法网站116,274个,提炼数千套网站模板。
项目经历
1. 基于大模型的商客营销助理
- 项目背景:针对移动政企客户产品的营销工作中存在的人力成本高、推荐效率低的问题,设计并实现了一套的营销推荐对话系统,旨在通过自然语言交互精准捕捉用户需求,提升客户转化率。
- 主要职责:
- 主导技术方案设计,贴合业务需求,梳理多轮对话管理,意图识别模块,知识库检索模块以及推荐决策模块的时序交互逻辑。
- 沟通营销业务员,将复杂营销推荐逻辑转化成提示词中CoT逻辑。
- 协调前后端团队,实现服务的私有化部署与接口联调,支持web,客服系统两种入口
- 技术挑战与解决方案:
- 回复智能性较低:通过内置大模型逻辑链提升系统回复的智能性。
- 业务背景知识偏差:利用高质量结构化知识库优化检索与生成逻辑。
- 项目成果:
- 100%覆盖商客经理,月均使用人数1700+,一线生产效率提升30%
- 营销转化率达14.1%,较传统营销转化率提升 5PP
2. 基于大模型的数据盘点系统插件
- 项目背景:针对传统数据字典维护成本高、准确性不足的问题,开发了一套基于大模型的数据盘点系统插件,旨在提升数据目录的完整性和准确性,支持企业数智化转型。
- 主要职责:
- 协助业务专家,梳理对齐训练数据,补全企业数据中大量存在且意义不明的首字母缩写,行话黑话等领域知识
- 基于llama_factory在内网A40服务器上搭建训练平台,利用LORA技术微调qwen1.5-7B模型,注入业务领域的专有知识
- 基于vllm框架封装高效的推理服务接口
- 对接大数据平台开发团队,完成数据盘点服务的私有化部署
- 技术挑战与解决方案:
- 训练过拟合问题:采用领域知识和通用知识1:1的配比,均衡训练数据分布。
- 生成内容幻觉问题:在模型生成后,使用独立的检索模块对回答进行事实核验,若检测到与 KB 冲突的内容,则触发补充检索或进行重生成
- 项目成果:
- 省公司1.85万张数据表的字典完整率由10%提升至100,数据字典准确率达到97%
- 完善存量数据字典的人工成本由3600人天减少至300人天
3. 文本结构化能力
- 项目背景:针对海量短文本数据中信息抽取与分类的需求,开发高效的文本结构化能力,实现要素信息的精准抽取和结构化存储。
- 主要职责:
- 实现MinHash + LSH算法近似去重算法,搭配自定义的正反向组合正则,实现海量数据的高效圈选
- 基于pytorch实现DPCNN的短文本分类模型的训练和推理流程,针对不同类型的文本任务调配损失和超参数
- 建立精确率(Precision) / 召回率(Recall) / F1 值模型性能指标体系
- 技术挑战与解决方案:
- 短文本语义稀疏:通过引入bert的预训练词向量和自定义词表,提高语义捕捉能力。
- 训练时效不足:重构训练代码支持一机双卡(T4)服务器上的分布式训练
- 项目成果:
- 短文本分类模型准确率提升至92%,命名实体识别模型F1值达90%以上。
- 实现每日上亿增量数据的高效处理,为电商、银行等行业建模提供高质量数据支持。
4. 违法网站识别模型
- 项目背景:响应公安“净网行动”,设计并开发了一套违法网站识别算子,旨在从海量互联网数据中精准分类与实时过滤涉黄、涉赌等违法内容。
- 主要职责:
- 基于TextCNN构建文本分类模型,精准识别违法内容。
- 引入ResNet18模型,优化黑产SEO篡改图片的误报问题。
- 利用single-pass聚类算法挖掘黑灰产网站同源模板。
- 技术挑战与解决方案:
- 黑产SEO篡改问题:采用图像识别、语义特征建模等多模态识别方案,提升检测精度。
- 违法网站模板化干扰:通过增量聚类算法,挖掘违法网站的模板特征,实现全网络扫描引擎上的批量指纹识别。
- 项目成果:
- 涉黄网站和涉赌网站识别准确率分别达99%和94%。
- 每日精准过滤约1,000个违法网站,累计处理超11万条违法网站。
奖项与荣誉
- 2023年,专利《一种基于大模型的资源盘点元数据管理工具》
- 2022年,证书 PMP(项目管理专业人员资格认证)(国际认证)
- 2021年,专利《一种实体识别噪音数据的清洗及建模方法和装置》
- 2020年,专利《一种违法网站识别方法、装置、设备及存储介质》
- 2020年,证书《数据科学专业》(康奈尔大学运筹学学院认证)
- 2018年,北京石油化工学院优秀毕业生
兴趣爱好
阅读技术博客、开源项目开发、羽毛球