【xgboost】使用xgboost训练一个简单模型

使用pandas读取特征数据,并处理数据中的双引号
使用xgboost训练一版模型
xgboost==1.6.2

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import xgboost as xgb
import logging
import csv
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import roc_auc_score, accuracy_score, log_loss

model_version = "v101"
root_path = "/home/.../model/xgboost_tool"

class DataProcess(object):
    def __init__(self, train_path, test_path):
        self.train_data = pd.read_csv(train_path, header=None, sep="\t", quoting=csv.QUOTE_MINIMAL, escapechar='\\')
        self.train_data.replace('""', '', inplace=True)
        self.train_df = self.train_data.apply(pd.to_numeric, errors='coerce')

        self.test_data = pd.read_csv(test_path, header=None, sep="\t", quoting=csv.QUOTE_MINIMAL, escapechar='\\')
        self.test_data.replace('""', '', inplace=True)
        self.test_df = self.test_data.apply(pd.to_numeric, errors='coerce')

    def data_process(self, mode="train"):
        if mode == "train":
            X_train, X_dev, Y_train, Y_dev = self.train_data_process()
            return X_train, X_dev, Y_train, Y_dev
        else:
            X_test, Y_test = self.test_data_process()
            return X_test, Y_test

    def train_data_process(self):
        data_X = self.train_df.iloc[:, 2:].astype(float)
        data_Y = self.train_df.iloc[:, 0].astype(int)
        X_train, X_dev, Y_train, Y_dev = train_test_split(data_X, data_Y, test_size=0.2)
        return X_train, X_dev, Y_train, Y_dev

    def test_data_process(self):
        X_test = self.test_df.iloc[:, 2:].astype(float)
        Y_test = self.test_df.iloc[:, 0].astype(int)
        return X_test, Y_test

def xgb_fit_single(X_train, Y_train, X_test, Y_test):
    """模型训练"""
    logging.info("Train model start...")
    # 决策树数量
    num_round = 10
    max_depth = 5
    learning_rate = 0.1
    model = XGBClassifier(max_depth=max_depth, learning_rate=learning_rate, n_estimators=num_round, silent=True,
                          objective='binary:logistic')
    eval_set = [(X_test, Y_test)]
    model.fit(X_train, Y_train, eval_metric=["auc", "logloss"], eval_set=eval_set, verbose=True)

    model_name = f"{num_round}_{max_depth}_{learning_rate}_{model_version}.json"
    model.save_model(f"{root_path}/saved_model/{model_name}")
    return model

if __name__ == '__main__':
    train_file_path = "/home/.../train.csv"
    test_file_path = "/home/.../test.csv"
    dp = DataProcess(train_file_path, test_file_path)

    X_train, X_dev, Y_train, Y_dev = dp.data_process(mode="train")
    
    print("Start xgboost training")
    model = xgb_fit_single(X_train, Y_train, X_dev, Y_dev)
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/557959.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spectre-v1 简介以及对应解决措施

文章目录 前言一、Variant 1: Exploiting Conditional Branches.二、 BACKGROUND2.1 Out-of-order Execution2.2 Speculative Execution2.3 Branch Prediction2.4 The Memory Hierarchy2.5 Microarchitectural Side-Channel Attacks2.6 Return-Oriented Programming 三、 ATTAC…

大学生简历大赛演讲稿(6篇)

大学生简历大赛演讲稿(6篇) 以下是六篇大学生简历大赛演讲稿的范文,供您参考: 范文一:展现真我,点亮未来 尊敬的评委、亲爱的同学们: 大家好! 今天,我站在这里&#xf…

区块链实验室(35) - 编译solana for ARM64版

今天终于成功编译solana for arm64版,编译时间巨长。见下图所示。编译步骤详见solana网站https://github.com/solana-labs/solana和https://docs.solanalabs.com/。

【C语言】【数据结构】项目实践——贪吃蛇游戏(超详细)

前言 本篇博客我们来实现一个小游戏项目——贪吃蛇,相信肯定很多人都玩过,那么整个贪吃蛇是怎么实现出来的那,这个项目用到了很多方面的知识:C语言函数、枚举、结构体、动态内存管理、预处理指令、链表、Win32 API等。我们就通过这…

nodejs工具模块学习

util 是一个Node.js 核心模块,提供常用函数的集合; util.inspect(object,[showHidden],[depth],[colors]) 是一个将任意对象转换 为字符串的方法,通常用于调试和错误输出; 如果只有一个参数 object,是要转换的对象&…

网工内推 | 兴业银行总行正编,科技运维部,硕士以上学历

01 兴业银行 招聘岗位:安全渗透专家 职责描述: 1.负责牵头组织本行红蓝对抗、攻防演练等工作; 2.负责牵头制定有效的渗透测试方案,开展对本行防御体系的验证工作; 3.负责牵头组织本行各类应用系统的渗透测试与漏洞扫…

java的Spring XML和注解解析深入理解

正文 熟悉IOC体系结构 要学习Spring源码,我们首先得要找准入口,那这个入口怎么找呢?我们不妨先思考一下,在Spring项目启动时,Spring做了哪些事情。这里我以最原始的xml配置方式来分析,那么在项目启动时&a…

大型网站系统架构演化实例_5.使用反向代理和CDN加速网站响应

1.使用反向代理和CDN加速网站响应 随着网站业务不断发展,用户规模越来越大,由于区域的差别使得网络环境异常复杂,不同地区的用户访问网站时,速度差别也极大。有研究表明,网站访问延迟和用户流失率正相关,网…

二叉检索树(定义、意义、存储数据元素形式),二叉检索树插入方法的图解和实现

1、二叉检索树: (1)定义 二叉检索树的任意一个结点,设其值为k,则该节点左子树中任意一个结点的值都小于k;该节点右子树中任意一个节点的值都大于或等于k 这里的比较规则可以是针对数字的,也可…

js实现抽奖效果

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>随机抽奖</title> </head> <body>…

synchronized锁升级原理

锁升级过程 jdk1.6之后的优化 synchronized锁有四种状态&#xff0c;无锁&#xff0c;偏向锁&#xff0c;轻量级锁&#xff0c;重量级锁&#xff0c;这几个状态会随着竞争状态逐渐升级&#xff0c;锁可以升级但不能降级&#xff0c;但是偏向锁状态可以被重置为无锁状态。 1、偏…

C++ 类和对象(终篇)

初始化列表 就是给我们每一个成员变量找了一个定义的位置&#xff0c;不然像const这样的成员不好处理 所有的成员能在初始化列表初始化的都在里面初始化 拷贝构造函数和构造函数都允许初始化 构造函数体中的语句只能将其称作为赋初值&#xff0c;而不能称作初始化。 因为初始…

牛客NC314 体育课测验(一)【中等 图,BFS,拓扑排序 Java,Go、PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/1a16c1b2d2674e1fb62ce8439e867f33 核心 图&#xff0c;BFS,拓扑排序&#xff0c;队列参考答案Java import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定&#xff0c;请勿修…

Scala 03 —— Scala Puzzle 拓展

Scala 03 —— Scala Puzzle 拓展 文章目录 Scala 03 —— Scala Puzzle 拓展一、占位符二、模式匹配的变量和常量模式三、继承 成员声明的位置结果初始化顺序分析BMember 类BConstructor 类 四、缺省初始值与重载五、Scala的集合操作和集合类型保持一致性第一部分代码解释第二…

浅浅了解一下 LibTorch

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ LibTorch 是 PyTorch 提供的一个二进制发行版&#xff0c;包含了所有必要的头文件、库和 CMake 配置文件&#xff0c;便于开发者依赖 PyTorch 开发应用。用户可以从 PyTorch 官网下载包含最新 LibTorch…

【科研】YOLOv8中anchor_points可视化(更新中)

目录 写在前面anchor-point可视化 写在前面 感叹一下&#xff1a;如果GPT能在我刚上大学的时候出来&#xff0c;也许我能学的比现在好太多&#xff0c;毕竟大学有一个比自己优秀太多的人引导着是多么地捷径。 anchor-point可视化

使用免费SSL证书安全吗,怎么获取

许多人可能会有疑问&#xff0c;使用免费的SSL证书真的安全吗&#xff1f;我们又该如何获取它们呢&#xff1f; 让我们简单了解一下什么是SSL证书&#xff1f;SSL证书是一种用于保障网络数据传输安全的小型数据文件。它通过在用户的浏览器与服务器之间建立一个加密的连接&…

常用UI组件

一、文本组件 1.1 概述 Text为文本组件&#xff0c;用于显示文字内容 1.2 参数 Text组件的参数类型为string | Resource Entry Component struct Index {build() {Column({space : 50}) {Text(你好).fontSize(50)}.width(100%).height(100%).justifyContent(FlexAlign.Cent…

使用Docker搭建一主二从的redis集群

文章目录 一、根据基础镜像构建三个docker容器二、构建master机三、配置slave机四、测试 本文使用 主机指代 物理机、 master机指代“一主二从”中的 一主&#xff0c; slave机指代“一主二从”中的 二从 一、根据基础镜像构建三个docker容器 根据本文第一章&#xff08…

Group Query Attention (GQA) 机制详解以及手动实现计算

Group Query Attention (GQA) 机制详解 1. GQA的定义 Grouped-Query Attention (GQA) 是对 Multi-Head Attention (MHA) 和 Multi-Query Attention (MQA) 的扩展。通过提供计算效率和模型表达能力之间的灵活权衡&#xff0c;实现了查询头的分组。GQA将查询头分成了G个组&#…
最新文章