비제이벳 적중률 높이는 데이터 분석 방법

적중률을 끌어올리려면 두 가지를 동시에 다뤄야 한다. 무엇에 베팅할지, 그리고 언제 베팅할지. 전자는 모델과 데이터가 좌우하고, 후자는 시장과 타이밍이 좌우한다. 비제이벳에서 수익을 내는 사람들을 가까이서 보면 모두 이 두 축을 끈질기게 다듬는다. 감으로만 승부하지 않고, 숫자만 보지도 않는다. 데이터를 통해 확률을 재해석하고, 시장의 반응을 통해 자신의 해석을 검증한다.

여기서는 그 과정을 구체적으로 풀어본다. 이 글은 통계 교과서식 나열이 아니라, 직접 모델을 운영하며 고친 부분, 실패했고 그래서 버린 부분, 얇은 데이터에서 얻을 수 있는 최소한의 신뢰를 만들기 위한 요령을 중심으로 정리했다. 롤커뮤니티에서 얻게 되는 팬덤 기반의 정보와 정량 분석을 어떻게 접목할지도 함께 다룬다.

적중률보다 기대값, 먼저 바로잡을 개념

처음 시작하는 사람은 적중률을 목표로 잡는다. 문제는 적중률이 곧 수익을 뜻하지 않는다는 점이다. 1.30 배당의 즐겨찾기만 줄곧 고르면 적중률은 70퍼센트를 넘길 수 있지만, 장기 수익은 마이너스일 가능성이 크다. 북메이커의 마진이 포함되어 있기 때문이다. 수익의 핵심은 기대값이다. 자신의 확률 추정이 배당이 내포한 시장 확률보다 높을 때만 베팅해야 한다.

배당을 확률로 바꾸는 과정은 간단하다. 예를 들어 1.80과 2.00의 양면 베팅이 있다면, 역수를 취한 뒤 정규화하면 된다. 1.80의 역수는 0.555, 2.00의 역수는 0.500. 합은 1.055로, 이 5.5퍼센트가 마진에 해당한다. 정규화하면 시장 확률은 각각 0.555/1.055와 0.500/1.055, 즉 약 52.6퍼센트와 47.4퍼센트다. 내가 만든 모델이 첫 결과의 확률을 56퍼센트로 본다면 오차와 변동성을 감안해도 베팅 후보가 된다. 반대로 51퍼센트라면 적중률을 높이려는 욕심이 있더라도 패스가 정답이다.

데이터의 출처와 신뢰도, 팬덤 정보의 쓰임새

게임과 리그별로 데이터의 표준화 수준은 다르다. LoL, 축구, 농구는 비교적 풍부하고 일관된 기록이 쌓인다. 반면 하부 리그나 신생 대회는 표본이 얇다. 비제이벳에서 LoL 항목으로 접근한다면 다음 세 가지 층위의 데이터를 분리해 다루는 편이 유리했다.

첫째, 장기 실력 지표. 팀의 시리즈 승률, 라인별 골드 격차, 15분 기준 오브젝트 통제력, 드래곤 우선권 비율 같은 지표를 시즌 단위로 모은다. 최소 2000게임 규모의 벤치마크가 있으면 각 지표가 승리 확률에 기여하는 크기를 안정적으로 추정할 수 있다.

둘째, 단기 폼과 패치 영향. LoL은 패치와 메타 변화가 잦다. 특정 챔피언의 밴픽률이 오르내리면 라인 주도권과 초반 교전 확률이 달라진다. 단기 구간을 3주 내지 5주로 잡고 가중치를 더 주는 방법이 유효했다. 단, 표본이 부족할수록 과적합에 주의해야 한다.

셋째, 맥락 정보. 롤커뮤니티를 비롯한 팬덤 채널에서 나오는 스크림 평판, 선수 컨디션 썰, 팀 전지훈련 루머 같은 것들이다. 순수하게 텍스트를 숫자로 치환하면 노이즈가 많다. 직접 써보며 내린 결론은, 이 정보는 모델 입력값이 아니라 모델의 스위치를 조절하는 용도로 쓰는 편이 낫다는 것이다. 예를 들어 단기 폼의 가중치를 1.0에서 1.2로 올리는 정도, 혹은 불확실성 페널티를 키워 베팅 강도를 줄이는 식이 더 성과가 좋았다.

베팅 시장의 작동 원리와 마진 구조를 읽는 법

북메이커는 확률을 추정하고 마진을 얹는다. 마진은 보통 3퍼센트에서 8퍼센트 사이에서 형성된다. 비제이벳처럼 다양한 항목을 제공하는 플랫폼은 시장 간 경쟁을 통해 메인 리그 마진이 낮아지고, 소수 리그 마진이 높게 유지되는 경향이 있다. 마진이 낮은 곳에서는 작은 엣지로도 의미가 생기고, 마진이 높은 곳에서는 모델의 우위가 더 커야 한다.

초보가 놓치는 대목은 마감 배당의 힘이다. 마감 배당은 시장의 종합 판단이 응축된 값이다. 여러 책에서 반복해서 썼지만, 내 경험에서도 마감 배당을 이기는 빈도가 장기 수익을 거의 설명한다. 베팅 당시 배당보다 마감 배당이 더 낮아졌다면, 나는 좋은 가격을 잡은 것이다. 이걸 숫자로 관리하면 CLV, 즉 Closing Line Value 지표가 된다. 한 달에 200건 정도 베팅을 해봤을 때, 평균 CLV가 1.5퍼센트 이상 플러스로 유지되면 실제 수익도 플러스로 귀결되는 경우가 많았다.

통계의 핵심만 골라 쓰기

모델이 복잡하다고 이기는 것이 아니다. 내장 수식이 많을수록 오히려 리그별 튜닝이 어려워지고, 데이터 변경에 민감해진다. 필요한 것만 골라 쓰는 편이 장기 유지에 유리했다.

기본 승률 추정은 로지스틱 회귀로 충분했다. 피처 수를 10개 안팎으로 제한하고, L2 정규화를 걸어 계수를 과감히 줄였다. 예컨대 LoL에서 라인별 골드差, 첫 드래곤 확률, 15분 타워 서열, 최근 10경기 내 첫 킬 빈도처럼 직접적으로 승리와 연결된 변수 중심으로 구성했다.
장기 실력은 Elo 계열 지표로 업데이트했다. 단, 순수 Elo보다 K 팩터를 구간별로 다르게 설정하면 반응성과 안정성의 절충이 좋아진다. 시즌 초에는 K를 크게, 플레이오프에는 중간, 결승전에는 작게.
불확실성은 베이지안 방식으로 반영했다. 표본이 적은 팀이나 재편된 로스터에는 넓은 사전 분포를 부여하고, 데이터가 쌓일수록 수렴시키는 방식이다. 직관적으로는, 새로 꾸려진 팀의 초반 몇 경기는 확률 추정의 신뢰구간이 넓다고 보는 셈이다.

이 정도면 자동화와 수동 판단의 균형이 맞는다. 더 복잡한 신경망을 써본 적도 있다. 그러나 실시간 관리와 설명 가능성, 그리고 마켓 반응을 빠르게 반영하기 어렵다는 점에서 결국 철수했다. 실무에서 중요한 것은 성능뿐 아니라 운영 비용과 의사결정 속도다.

피처 엔지니어링, 숫자의 해석력이 성패를 가른다

데이터가 롤커뮤니티 같아도 만드는 피처가 다르면 결과가 갈린다. LoL을 예로 들면, 단순 승률보다 라인전 초반의 질적 우위를 표현해주는 지표가 훨씬 유효했다. 탑과 정글의 시너지, 미드의 라인 푸시 속도, 바텀의 오브젝트 전환 타이밍 같은 요소를 금액과 시간으로 환산해보면 모델이 크게 개선된다.

여기서 중요한 것이 변환과 정규화다. 라인별 골드 차이는 상대적 영향력이 다르다. 탑의 1000골드는 한타 지형과 챔피언 풀의 특성상 바텀의 1000골드보다 승리에 덜 기여할 수 있다. 과거 2000경기 데이터를 가지고 각 라인 골드 차이가 승리 확률에 미치는 계수를 추정하면, 대략 바텀과 정글이 상위, 탑과 서포터가 중간 수준으로 나타나는 경우가 많았다. 다만 특정 메타에서는 서포터의 영향력이 급상승한다. 패치가 바뀔 때마다 이 계수를 통째로 재추정하는 체계를 가져가는 편이 안전했다.

또 하나는 팬덤 데이터의 온도 조절이다. 롤커뮤니티에서 반복적으로 등장하는 내러티브, 예컨대 특정 팀이 강팀 상대로 유독 강하다는 서사는 사실일 수도 있다. 하지만 그 패턴이 샘플링 편향인지 확인해야 한다. 강팀 상대 경기 자체가 주목을 많이 받아 회자될 확률이 높다는 점을 감안하면, 전체 분포에서는 유의하지 않은 경우가 흔했다. 나는 이런 내러티브를 그대로 피처로 쓰지 않고, 그 서사가 실제 수치로 어떤 거리만큼 이동을 요구하는지 역산했다. 예를 들어 강팀 상대로 승률이 높다는 말이 사실이라면, 같은 장면의 라인별 골드 차에서 평균보다 몇 퍼센트포인트 더 승률이 올라가야 한다. 이 기준을 충족하지 않으면 내러티브는 보류한다.

데이터 수집과 정제, 실전에서 자주 무너지는 구간

대부분의 실패는 모델링이 아니라 데이터 단계에서 결정된다. 특히 라이브 경기의 시계열 데이터는 시간 정합성이 무너지기 쉽다. 내 경우 두 가지 원칙을 세웠다. 하나, 기록원 출처가 둘이면 반드시 교차검증을 한다. 둘, 누락이 1퍼센트를 넘으면 그 변수는 해당 경기에서 배제한다. 변수 하나의 결측치 보간이 전체 승률 추정을 왜곡하는 사례가 잦다.

정제 작업에서는 이벤트 타임라인의 기준점을 합치는 게 중요했다. 예를 들어 첫 바론 시간과 그 직전 2분의 골드 차이를 연결해 피처를 만들 때, 게임 클럭 기준과 패치 전후 기준이 뒤섞이면 엉뚱한 수치가 나온다. 가능하면 경기 단위의 키와 이벤트 단위의 키를 분리하고, 조인할 때 어긋남을 표시하는 로그를 남겨 추후 리플레이가 가능하도록 한다. 이런 지루한 공정이 모델 리빌드 시간을 단축한다.

검증과 백테스트, 착시를 줄이는 방법

백테스트는 쉽게 속는다. 같은 리그의 같은 시즌을 너무 많이 만지면 그 데이터에 들러붙는다. 방지책으로는 시계열 분할과 외부 검증이 유효했다. 예를 들어 3개 시즌을 쓸 때, 1년차로 학습, 2년차로 튜닝, 3년차로 고정 검증을 한다. 하이퍼파라미터는 2년차까지만 만지고 3년차는 터치하지 않는다. 이래야 실제 운영 환경과 유사해진다.

지표는 적중률, 수익률, CLV 세 가지를 함께 본다. 적중률만 보면 저배당 과적합에 빠지고, 수익률만 보면 단기 운에 휘둘린다. CLV는 시장과의 상대 비교라서 모델의 우위가 유지되는지 가늠하기 좋다. 세 지표가 동시에 개선되는 구간만 남기고 나머지는 과감히 버린다.

배당 변동과 타이밍, 언제 베팅하느냐의 기술

같은 확률 추정이어도 베팅 시점이 다르면 수익이 갈린다. 마감으로 갈수록 정보가 모여 가격이 정교해진다. 내가 가진 정보 우위가 크면 초반에, 정보 우위가 작고 모형 우위가 주라면 중후반에 들어가는 편이 낫다. 개인적으로 LoL은 패치 직후 첫 2주에는 조기 베팅이 통했고, 메타가 안정되면 마감 3시간 전에서 30분 전 사이가 성과가 좋았다. 팀 뉴스와 라인업 변동 가능성이 큰 리그에서는 마감 임박 베팅 비중을 늘렸다.

사소하지만 큰 차이를 만든 습관은 다음이었다. 시장의 급격한 배당 이동을 만나면 이유가 확실할 때만 따라붙는다. 예컨대 주전 원딜의 결장 소식이 확인되면 이동이 과했는지 여부를 모델로 재평가하고, 이동 폭이 시장 평균 대비 지나치게 크면 역으로 받는다. 반대로 루머 수준이면 아예 무시한다. 루머에 의존하면 변동성은 커지고, 장기 지표는 무너진다.

자금 관리, 승률이 아닌 변동성에 맞춰라

동일 확률에서 베팅 금액을 달리해야 한다. 켈리 기준을 그대로 쓰면 수익률 최적화에는 유리하지만 변동성이 높아 심리적 한계를 넘기 쉽다. 반 켈리나 분수 켈리를 추천한다. 예를 들어 내 모델이 승률 0.56, 배당 1.90의 베팅에서 엣지를 0.064로 계산했다면, 켈리 비중은 약 3.6퍼센트가 된다. 반 켈리를 쓰면 1.8퍼센트. 실전에서는 이마저도 상한선을 둬서 일일 한도와 경기당 한도를 구분했다.

수익과 손실을 관리하는 보고서는 주차와 월차로 분리한다. 주차는 변동성 모니터링, 월차는 전략 수정의 기준으로 쓴다. 주차 손실이 -8퍼센트를 넘기면 전체 베팅 규모를 30퍼센트 줄여 회복력을 확보한다. 이런 기계적 규칙이 있어야 감정 개입을 막을 수 있다.

라이브 베팅의 오해와 요령

라이브는 위험하니 하지 말라는 말이 있다. 절반만 맞다. 라이브는 계산이 느린 사람에게 위험하고, 체계가 있는 사람에겐 기회다. 관전 중인 LoL 경기에서 10분 시점 드래곤과 전령의 교환이 발생했을 때, 첫 전령의 골드 가치를 시간 가치와 함께 환산해보면 종종 시장이 과소평가한다. 반대로 큰 교전 직후 베팅을 넣는 것은 위험하다. 데이터 피드와 시장의 가격 반영에 약간의 지연이 있고, 그 지연이 엇갈릴 때 가격이 뒤늦게 조정될 수 있다.

라이브에서는 딱 세 가지 규칙만 지켰다. 첫째, 사전 모델이 없는 경기는 라이브로 진입하지 않는다. 둘째, 스코어 기반이 아닌 자원 차이로만 판단한다. 셋째, 2분 단위로만 결정을 내리고 그 사이에는 손대지 않는다. 이 정도 절제가 있어야 라이브 특유의 쾌감을 수익으로 바꿀 수 있다.

에러와 오차, 스스로 만드는 신뢰구간

적중률을 높인다는 말은, 오차를 줄이거나 오차를 인정하고 그 범위 안에서만 행동하겠다는 뜻이다. 실무에는 두 오차가 있다. 데이터 오차와 모델 오차. 데이터 오차는 결측, 오기, 시간 불일치 같은 문제로 발생한다. 해결책은 로그와 거부 규칙이다. 일정 비율 이상의 결측이 있으면 전체 경기를 버린다. 모델 오차는 과적합, 변수 누락, 구조적 변화로 발생한다. 해결책은 단순화와 재학습 주기다. 시즌이 변하면 모델을 전부 다시 학습시키고, 패치가 바뀌면 민감한 피처만 부분 업데이트한다.

이 모든 오차를 수치로 표현하면 신뢰구간이 된다. 예를 들어 어떤 베팅에서 모델 승률이 58퍼센트, 오차 표준편차가 3퍼센트포인트라면, 안전 구간은 55에서 61 사이로 잡는다. 시장 확률이 54퍼센트라면 베팅, 57퍼센트면 보류. 이런 선긋기는 기회 손실을 만들기도 하지만, 총량으로 보면 계좌를 지켜준다.

케이스 스터디, 패치 전후 6주 전략

한 시즌에 LoL 대형 패치가 들어온 시점에 테스트를 했다. 데이터는 패치 전 8주, 후 6주. 피처는 라인별 골드 차, 오브젝트 우선권, 시야 점수, 초반 킬 관여, 최근 스크림 소문 반영 가중치다. 비교군 A는 고정 계수, 비교군 B는 패치 후 3주 동안 단기 폼 가중치를 1.2로 올리고, 바텀 영향 계수를 10퍼센트 확대했다. 베팅은 비제이벳 메인 라인 중심으로, 시장 마진 평균 4.2퍼센트 구간에서 집행했다.

결과는 이랬다. A군은 적중률 55.1퍼센트, 수익률 -0.6퍼센트, 평균 CLV +0.2퍼센트. B군은 적중률 54.3퍼센트, 수익률 +2.1퍼센트, 평균 CLV +1.7퍼센트. 적중률만 보면 A가 낫지만, 기대값은 B가 앞섰다. 패치 직후 시장이 바텀 영향 확대를 더디게 반영한 것이 원인으로 보였다. 이 실험 이후로 나는 패치 노트의 내용 중 승리 확률 변동을 크게 만들어낼 항목만 골라, 단기 가중치와 특정 라인 계수를 유연하게 조절했다.

실무 워크플로, 일주일의 리듬

다음 순서는 한 주 동안 유지해 온 루틴이다. 시합이 몰리는 주말에 정신줄을 놓지 않도록 만든 최소 단위다.

월요일, 데이터 동기화와 품질 점검. 지난주 경기의 결측률 리포트, 변수 분포의 급변 징후 확인. 결측률 1퍼센트 초과 변수는 이번 주 모델 입력에서 제외.
화요일, 모델 리프레시. 장기 지표 업데이트, 단기 폼 가중치 조정, 최신 배당 반영으로 베타 테스트. 30건 안팎의 과거 경기로 빠른 리그별 점검.
수요일, 카드 작성. 베팅 후보군을 만들고, 각 카드마다 이유와 반대 이유를 2줄씩 기록. 롤커뮤니티에서 수집한 소문은 증거 수준을 A, B, C로 표기.
목금, 시세 모니터링과 소액 테스트. 움직임이 빠른 라인에 소액으로 진입해 CLV 체감. 마감으로 갈 베팅 리스트는 가격 변동 폭을 기준으로 우선순위 부여.
주말, 집행과 리뷰. 경기 전 반영 완료, 라이브는 사전 시나리오 매칭이 되는 경우에만 진입. 일요일 밤에는 승패가 아닌 의사결정의 질만 리뷰.

이 다섯 단계는 복잡한 도구 없이 스프레드시트와 간단한 스크립트만으로도 돌아간다. 중요한 것은 형식을 지키는 습관이다.

작은 이점이 장기 성과를 만든다

모델의 평균 절대 오차를 1퍼센트포인트 줄이는 데 몇 달이 걸리는 경우가 있다. 성과가 미미해 보이지만, 마진 4퍼센트 구간에서는 이 1퍼센트가 전체 판세를 바꾼다. 특히 비제이벳처럼 다양한 시장이 공존하는 곳에서는, 주력 종목 하나에서만 우위를 만들어도 포트폴리오 차원의 변동성을 크게 낮출 수 있다.

한편, 너무 많은 시장을 동시에 보려는 욕심은 경계해야 한다. 초기에 나는 축구, 농구, LoL, 배구를 모두 만졌다. 표면적으론 분산 투자처럼 보였지만, 실제로는 데이터 수집과 튜닝 비용이 네 배로 늘어 결과적으로 모든 시장에서 중간 이하 성과를 냈다. 이후 LoL과 축구 상위 리그로 좁혔고, 그 다음에야 성과가 안정됐다. 롤커뮤니티의 정보 생태계를 잘 알고 있었던 점이 LoL에서의 유지력으로 이어진 것도 한몫했다.

흔한 함정과 피하는 법

대부분이 빠지는 함정은 몇 가지로 요약된다. 첫째, 단기 연승의 오판. 2주간의 호조를 모델의 우월성으로 착각하면, 그다음 2주에 과금으로 되돌려 받는다. 둘째, 히스토리 수정. 패자를 이겼다고 여기는 기억의 오류를 막으려면, 베팅 순간의 스냅샷을 남겨야 한다. 셋째, 과도한 파생시장 탐닉. 첫 킬, 특정 라인 KDA 같은 파생은 정보 우위가 있을 때만 유효하다. 정보가 없으면 마진만 더 낸다.

넷째, 루머 매수. 롤커뮤니티의 소문은 양질의 조기 신호가 되기도 한다. 다만, 주장의 원 출처와 반복 횟수, 과거 적중 이력을 추적하지 않으면 노이즈가 이득을 압도한다. 일정 기간 루머의 적중률을 기록하고, 기준 이하의 출처는 폐기하는 필터가 필요하다. 다섯째, 스테이크 인상 중독. 연승 때 베팅 금액을 늘리는 것은 켈리에도 반하지만, 심리에도 해롭다. 내 기준은 연승과 무관하게 엣지 크기에만 비례해 금액을 조절하는 것이다.

실전 체크리스트, 베팅 전 30초 점검

시장 확률과 모델 확률의 차이가 최소 3퍼센트포인트 이상인가
데이터 결측이나 이벤트 타임라인 오류가 없는가
마감까지 남은 시간과 뉴스 리스크는 적절한가
과거 유사 구간에서 CLV가 플러스였는가
베팅 금액이 일일 한도와 경기 한도를 넘지 않는가

이 다섯 가지는 단순하지만, 지키면 변동성의 대부분이 가라앉는다. 체크리스트를 소리 내어 읽는 습관만으로도 충동 베팅이 줄어든다.

적중률을 높이는 대신, 오답을 덜 선택하라

모델과 시장의 싸움에서 항상 이길 수는 없다. 목표를 적중률 상승에만 두면 그 자체가 올무가 된다. 내가 택한 대안은 오답을 덜 선택하는 것이다. 구체적으로는, 확률 추정의 신뢰구간이 넓을 때는 패스 비율을 높이고, 시장이 과반의 내러티브로 쏠릴 때는 반대 방향의 가격만 탐색한다. 장기적으로는 베팅 건수의 20에서 30퍼센트가 패스로 돌아간다. 체감상 기회를 놓치는 것처럼 아프지만, 계좌 그래프는 부드러워진다.

비제이벳 같은 종합 플랫폼에서는 이 절제가 더 중요하다. 다양한 옵션이 클릭을 유도하고, 살짝 엣지가 있어 보이는 대상을 무한히 만들어낸다. 여기서 살아남는 방법은, 내 모델이 강한 영역의 카드를 반복해서 실행하는 것이다. 롤커뮤니티에서 얻은 정성 정보를 과감히 버릴 줄 아는 냉정함도 필요하다. 정말 높은 질의 소문은 언젠가 성과로 나타난다. 다만 그 빈도는 낮고, 대부분은 잡음이다.

마무리 대신, 꾸준함의 설계

지속 가능한 시스템은 귀찮음을 내장한다. 자동화가 가능한 곳도 일부러 수동 단계를 남겨둔다. 손으로 다시 확인해야만 발견되는 오류들이 분명히 존재하기 때문이다. 내가 유지하는 최소한의 귀찮음은 세 가지다. 베팅 카드의 간단한 서술, 소문 출처의 등급 표기, 경기 후 의사결정 리뷰. 시간이 들지만, 이 세 가지가 데이터와 모델의 품질 관리가 된다.

적중률은 과시하기 좋은 숫자라 유혹적이다. 하지만 오래해 보면 알게 된다. 진짜로 중요한 것은 견고한 기대값, 시장과의 꾸준한 CLV 우위, 감정에 흔들리지 않는 스테이크 운영이다. 이 셋을 받치는 도구가 데이터 분석이고, 그 도구를 제대로 쓰는 습관은 천천히 만들어진다. 조급하지 않게, 그러나 집요하게. 그렇게 쌓인 작은 우위가 비제이벳에서의 장기 수익을 만든다.