ScamBlock - Trợ Lý Chặn Lừa Đảo Bằng AI

Tóm tắt

Việt Nam ghi nhận khoảng 23.000 vụ lừa đảo trực tuyến mỗi ngày, với mã độc mới có khả năng vượt mặt xác thực hai lớp (2FA) qua lỗ hổng giao thức SS7. Các vector tấn công phổ biến nhất nhắm vào người dùng Việt Nam bao gồm: tin nhắn SMS giả mạo ngân hàng, cuộc gọi giả mạo công an/tòa án để thu tiền, link Zalo lừa đảo, và tin nhắn MoMo đòi xác minh tài khoản. Không một công cụ nào tại Việt Nam cung cấp database scam nội địa được cập nhật real-time kết hợp AI để phát hiện và chặn các vector tấn công đặc thù này. Alpha Chain Ltd. đề xuất ScamBlock — một extension trình duyệt và ứng dụng di động sử dụng AI để phát hiện và chặn tin nhắn, cuộc gọi, và link lừa đảo nhắm vào người dùng Việt Nam, với database scam nội địa được cộng đồng đóng góp và AI tự động phân tích.

Định nghĩa vấn đề

Phát biểu vấn đề

Hệ sinh thái lừa đảo tại Việt Nam có đặc thù riêng biệt mà các công cụ bảo mật quốc tế không thể phản ánh kịp thời. Tin nhắn giả mạo từ đầu số ngân hàng (VD: "MBBank" hoặc "VietinBank") sử dụng technique SMS spoofing để hiển thị tên brand thay vì số điện thoại. Cuộc gọi giả mạo công an/tòa án yêu cầu chuyển tiền vào tài khoản "bảo lãnh" sử dụng kỹ thuật caller ID spoofing. Link giả mạo MoMo/Zalo sử dụng domain tên xấu gần giống (ví dụ: "m0mo.vn" thay vì "momo.vn"). Không có database tập trung nào ghi nhận và chia sẻ các pattern lừa đảo đặc thù này.

Định lượng thiệt hại

~23.000 vụ lừa đảo trực tuyến/ngày tại Việt Nam, với thiệt hại trung bình 200–500 triệu VNĐ/vụ (ước tính)
SMS spoofing nhắm vào người dùng ngân hàng: khoảng 500.000–1.000.000 tin nhắn lừa đảo được gửi mỗi tháng (ước tính) (ước tính)
Caller ID spoofing cho cuộc gọi giả công an/tòa án: khoảng 50.000–100.000 cuộc gọi/ngày trên toàn quốc (ước tính) (ước tính)
Không có database scam nội địa nào tại Việt Nam — người dùng phụ thuộc vào tin đồn hoặc kinh nghiệm cá nhân (ước tính) (ước tính)
Không công cụ chặn tự động nào tại Việt Nam hỗ trợ cả SMS, cuộc gọi, và link Zalo/MoMo (ước tính) (ước tính)

Phạm vi

Trong phạm vi:

Phát hiện và chặn tin nhắn lừa đảo (SMS, Zalo) dựa trên AI và database cộng đồng.
Phát hiện và cảnh báo cuộc gọi lừa đảo (caller ID spoofing).
Kiểm tra link nhấp trong tin nhắn (so sánh domain, scan URL).
Database scam nội địa: cộng đồng báo cáo + AI phân tích.
Extension trình duyệt chặn website lừa đảo.
Alert system: push notification, SMS alert cho người thân.

Ngoài phạm vi:

Chặn hoàn toàn cuộc gọi (chỉ cảnh báo, không block ở tầng carrier).
Diệt virus/malware.
Bảo mật giao dịch ngân hàng.

Mô hình vấn đề

Mô hình xác suất phát hiện lừa đảo dựa trên AI:

$P(\text{scam} | x) = \sigma(W \cdot f(x) + b)$

Các biến:

$x$ — vector đặc trưng của tin nhắn/cuộc gọi
$f(x)$ — embedding từ mô hình language model (Vietnamese BERT)
$W, b$ — tham số mô hình phân loại
$\sigma$ — sigmoid activation

Vector đặc trưng $x$ bao gồm:

Nội dung văn bản: TF-IDF + embedding
Số điện thoại/nguồn gửi: reputation score từ database
URL trong tin nhắn: domain similarity vs legitimate brands
Thời gian gửi: pattern analysis
Tỷ lệ ký tự đặc biệt: anomaly detection

Các ràng buộc: $C_1: P(\text{scam}) \gt 0.85 \Rightarrow \text{block/warn}$

$C_2: P(\text{scam}) \in [0.5, 0.85] \Rightarrow \text{flag}$

$C_3: \text{False positive rate} \leq 2\%$

Trong đó $C_1$ là ngưỡng chặn/cảnh báo, $C_2$ là ngưỡng gắn nhãn nghi ngờ, $C_3$ là giới hạn tỷ lệ false positive để tránh chặn nhầm.

Mục tiêu: $\max_{\theta} \text{Recall} \quad \text{s.t.} \quad \text{FPR} \leq 2\%$

Tối đa hóa recall với ràng buộc tỷ lệ false positive không quá 2%.

Giải pháp đề xuất

Alpha Chain Ltd. đề xuất ScamBlock — một nền tảng phát hiện và chặn lừa đảo cho người dùng Việt Nam, hoạt động theo mô hình: AI phát hiện trung tâm, database cộng đồng làm nền tảng, alert system làm cảnh báo.

Core features:

AI Scam Detector cho SMS/Zalo: Mô hình fine-tuned Vietnamese BERT phân tích nội dung tin nhắn, gán xác suất lừa đảo $P(\text{scam})$ . Tin nhắn có $P > 0.85$ được chặn tự động hoặc cảnh báo nổi bật. Tin nhắn có $P \in [0.5, 0.85]$ được gắn nhãn "Nghi ngờ lừa đảo."
Caller ID Spoofing Detection: Phân tích metadata cuộc gọi: nếu số gọi hiển thị là số công an/tòa án nhưng metadata thực tế cho thấy nguồn khác, gửi cảnh báo real-time. Module so sánh với danh sách đầu số công khai của các cơ quan nhà nước.
Link Checker: Khi người dùng nhấp link trong SMS/Zalo, ScamBlock kiểm tra: domain similarity vs legitimate brands (ví dụ: "m0mo.vn" vs "momo.vn"), SSL certificate, reputation score từ VirusTotal, và database nội bộ các domain lừa đảo. Kết quả trong ≤1 giây.
Database Scam Nội Địa: Database tập trung lưu trữ các pattern lừa đảo cộng đồng phát hiện: link đã báo cáo, số điện thoại lừa đảo, nội dung mẫu. AI tự động phân tích và thêm vào database. Database được cập nhật real-time, phản ánh các chiến dịch lừa đảo mới nhất.
Community Reporting: Người dùng báo cáo tin nhắn/cuộc gọi lừa đảo qua app với 1 tap. Báo cáo được xác minh tự động qua AI (so sánh với pattern known) và thêm vào database nếu đủ xác nhận. Người báo cáo nhận point/reputation để khuyến khích.
Alert cho người thân: Khi phát hiện lừa đảo nhắm vào số điện thoại người dùng, app gửi SMS/cảnh báo Zalo đến 3 số người thân đã đăng ký.

Các quyết định thiết kế chính

Quyết định 1 — Chặn ở tầng app, không can thiệp carrier: ScamBlock chặn/chặn hiển thị tin nhắn trên thiết bị người dùng (Android: Call/SMS filtering API, iOS: Private URL scheme + extension). Không can thiệp vào hạ tầng viễn thông, tránh xung đột pháp lý và hạn chế kỹ thuật.
Quyết định 2 — AI model chạy on-device khi có thể: Để bảo vệ quyền riêng tư và giảm độ trễ, mô hình phát hiện lừa đảo được quantized (INT8) và chạy trực tiếp trên thiết bị. Chỉ gửi metadata ẩn danh lên server để cập nhật database khi có báo cáo cộng đồng.
Quyết định 3 — Ngưỡng chặn conservative (FPR ≤2%): Để tránh chặn nhầm tin nhắn quan trọng (tin nhắn ngân hàng thật, cuộc gọi từ số lạ), ngưỡng chặn tự động được đặt ở mức $P > 0.85$ — cao hơn ngưỡng khuyến nghị 0.7. Tin nhắn có $P < 0.85$ chỉ được gắn nhãn cảnh báo, không bị chặn.

Tiêu chí thành công

Tiêu chí	Mục tiêu	Phương pháp đo lường
Độ nhạy (recall) phát hiện scam	≥90%	Tỷ lệ tin nhắn/cuộc gọi lừa đảo được phát hiện trên tổng số scam thực tế
Tỷ lệ false positive	≤2%	Tỷ lệ tin nhắn thật bị chặn nhầm trên tổng tin thật
Thời gian phát hiện	≤1 giây cho SMS, ≤3 giây cho cuộc gọi	Từ nhận tin nhắn đến khi hiển thị quyết định
Số pattern scam trong database	≥10.000 pattern sau 6 tháng	Số lượng pattern đã xác minh

Luồng hệ thống

Thuật toán cốt lõi

Mô tả thuật toán

Thuật toán ScamDetectAI phát hiện lừa đảo qua 4 lớp phân tích:

Lớp 1 — Pattern Matching: Kiểm tra ngay nội dung với database scam nội địa: exact match link, exact match số điện thoại, substring match với template lừa đảo known. Nếu match → $P = 1.0$ .

Lớp 2 — NLP Analysis: Với tin nhắn chưa known, sử dụng Vietnamese BERT fine-tuned để phân tích: urgency language ("chuyển tiền ngay", "tài khoản bị khóa", "công an", "tòa án"), authority impersonation (giả mạo ngân hàng, nhà mạng, cơ quan nhà nước), financial trigger (yêu cầu chuyển tiền, cung cấp OTP, xác minh tài khoản).

Lớp 3 — URL Analysis: Với tin nhắn chứa link, phân tích: domain similarity vs legitimate brands (Levenshtein distance, phonetic similarity), WHOIS age (domain mới < 30 ngày = nghi ngờ), SSL certificate, VirusTotal reputation.

Lớp 4 — Caller Analysis: Với cuộc gọi, kiểm tra: caller ID spoofing detection (so sánh STIR/SHAKEN signature), số hiển thị vs đầu số thực, danh sách đen cơ quan nhà nước.

Công thức toán học

Điểm số domain similarity (phát hiện domain giả mạo):

$D_{mathrm{sim}}(d_{mathrm{test}}, d_{mathrm{legit}}) = 1 - \frac{\text{Levenshtein}(d_{mathrm{test}}, d_{mathrm{legit}})}{\max(|d_{mathrm{test}}|, |d_{mathrm{legit}}|)}$

Nếu $D_{mathrm{sim}} > 0.8$ và $d_{mathrm{test}} \neq d_{mathrm{legit}}$ → domain giả mạo nghi ngờ cao.

Độ phức tạp

Chỉ số	Giá trị
Độ phức tạp thời gian	$O(1)$ — pattern match; $O(n)$ — NLP model inference
Độ phức tạp không gian	$O(n)$ — database scam ( $n$ = số pattern)

Kiến trúc hệ thống

+------------------------------------------------------------+
|                    Lớp Người Dùng (UI)                    |
|  +------------------+  +------------------+  +-------------+ |
|  | Màn hình tin nhắn bị chặn|  | Báo cáo scam (1 tap)  |  | Dashboard thống kê | |
|  | Xem + restore nếu nhầm   |  | Chọn loại, gửi ngay   |  | Số lượng chặn/tháng| |
|  +------------------+  +------------------+  +-------------+  |
+------------------------------------------------------------+
                              |
                              v
+------------------------------------------------------------+
|                    Lớp Dịch Vụ Nghiệp Vụ                   |
|  +------------------+  +----------------+  +----------------+  |
|  | ScamDetectAI       |  | CommunityReport  |  | LinkChecker    |  |
|  | 4-layer detection |  | Xác minh + cập  |  | URL analysis   |  |
|  | (Pattern+NLP+URL+ |  | nhật database   |  | domain + SSL  |  |
|  |  Caller)           |  |                 |  | + reputation   |  |
|  +------------------+  +----------------+  +----------------+  |
|  +------------------+  +----------------+  +----------------+  |
|  |CallSpoofDetector   |  | AlertManager   |  | ReputationScorer|  |
|  | STIR/SHAKEN check  |  | Push + SMS to  |  | Điểm uy tín   |  |
|  | + agency blacklist  |  | emergency      |  | số điện thoại |  |
|  +------------------+  +----------------+  +----------------+  |
+------------------------------------------------------------+
                              |
                              v
+------------------------------------------------------------+
|                    Lớp Tích Hợp Ngoài                       |
|  +------------------+  +----------------+  +---------------+  |
|  | Vietnamese BERT     |  | VirusTotal API  |  | STIR/SHAKEN   |   |
|  | On-device inference|  | URL reputation  |  | Carrier API   |   |
|  | (quantized INT8)   |  |                |  | (if available) |   |
|  +------------------+  +----------------+  +---------------+  |
+------------------------------------------------------------+
                              |
                              v
+------------------------------------------------------------+
|                    Lớp Dữ Liệu                              |
|  +---------------------------+  +-------------------------+  |
|  | PostgreSQL                    |  | Redis                     |  |
|  | Scam patterns, user reports,|  | Real-time scoring cache, |  |
|  | community votes               |  | phone reputation         |  |
|  +---------------------------+  +-------------------------+  |
+------------------------------------------------------------+

Trường hợp sử dụng

Trường hợp sử dụng 1: Tin nhắn giả mạo VietinBank bị chặn

Các tác viên: Người dùng ScamBlock, AI detector.

Tiên điều kiện: Người dùng đã cài đặt và kích hoạt ScamBlock.

Kích hoạt: Người dùng nhận tin nhắn SMS từ đầu số hiển thị "VietinBank" (thực tế là SMS spoofing): "Tài khoản của bạn bị khóa. Xác minh ngay tại: vietinbank-verify.mooo.com."

Các bước:

ScamBlock nhận tin nhắn, gọi ScamDetectAI.
Lớp 1 (Pattern): "vietinbank-verify.mooo.com" không trong database.
Lớp 2 (NLP): phát hiện urgency language ("bị khóa", "Xác minh ngay"), authority impersonation ("VietinBank"), financial trigger ("xác minh tài khoản"). → $P = 0.87$ .
Lớp 3 (URL): domain "mooo.com" là domain free hosting, age < 30 ngày, không có SSL hợp lệ → $P = 0.91$ .
Tổng hợp: $P = 0.89 > 0.85$ → chặn tự động.
Hiển thị cảnh báo nổi bật: "CẢNH BÁO LỪA ĐẢO: Tin nhắn này giả mạo VietinBank để đánh cắp thông tin tài khoản của bạn. VietinBank không bao giờ yêu cầu xác minh qua link."
Tin nhắn được lưu trong mục "Tin nhắn bị chặn" để user review.

Sau điều kiện: Tin nhắn lừa đảo không đến inbox user. Pattern được thêm vào database.

Kết quả mong đợi: Tin nhắn bị chặn trước khi user đọc và có hành động. Xác suất cao user không bị mất tiền.

Trường hợp sử dụng 2: Người dùng báo cáo cuộc gọi giả công an

Các tác viên: Người dùng nhận cuộc gọi lừa đảo, đội ngũ vận hành ScamBlock.

Tiên điều kiện: Người dùng nhận cuộc gọi giả mạo, nghe người gọi yêu cầu chuyển tiền vào tài khoản để "bảo lãnh."

Kích hoạt: Người dùng nhận cuộc gọi từ số hiển thị "028 3833 1234" (đầu số công an TP HCM), người tự xưng là "cán bộ công an."

Các bước:

ScamBlock phát hiện: số hiển thị trùng với đầu số công an TP HCM nhưng caller metadata thực tế cho thấy nguồn khác (international gateway).
Hiển thị cảnh báo trong cuộc gọi: "Số này có dấu hiệu giả mạo. Cảnh báo: công an thật không bao giờ yêu cầu chuyển tiền qua điện thoại."
Sau cuộc gọi, người dùng mở ScamBlock, nhấn "Báo cáo lừa đảo" (1 tap).
Báo cáo được gửi: số thực, số hiển thị, nội dung (người gọi nói gì), thời gian.
AI xác minh: pattern match với known scam (giả công an) → xác nhận.
Số thực được thêm vào blacklist. Người báo cáo nhận 10 point reputation.

Sau điều kiện: Pattern mới được thêm vào database. Lần sau số này gọi cho bất kỳ user ScamBlock nào, họ sẽ nhận cảnh báo ngay.

Kết quả mong đợi: Cộng đồng ScamBlock phát hiện và chia sẻ pattern lừa đảo mới trong vòng 1 giờ.

Mô hình kinh doanh

Mô hình doanh thu

$R = \sum_{i=1}^{n} (p_i \times q_i) + R_{mathrm{affiliate}} - C_{mathrm{fixed}} - C_{mathrm{var}}(q)$

Các thành phần:

$p_1 = 29.000$ VNĐ/tháng — gói Premium: chặn cuộc gọi (thay vì chỉ cảnh báo), AI model nâng cao, không giới hạn báo cáo
$p_2 = 99.000$ VNĐ/tháng — gói Family: 5 người dùng, alert chéo cho family members
$R_{mathrm{affiliate}}$ — hoa hồng affiliate từ partner bảo mật (antivirus, VPN)

Cấu trúc chi phí

Loại chi phí	Mô tả	Số tiền (ước tính)
Hạ tầng cloud (GPU)	Inference server cho AI model	25.000.000 đ/tháng
Vietnamese BERT fine-tuning	Training và maintain model	15.000.000 đ/tháng
Database hosting	PostgreSQL + Redis	5.000.000 đ/tháng
Team vận hành (2 kỹ sư + 1 CSKH)	Bảo trì, hỗ trợ	60.000.000 đ/tháng
Marketing	Chiến dịch ASO + viral	20.000.000 đ/tháng

Phân tích điểm hòa vốn

Với $p_{mathrm{avg}} = 39.000$ VNĐ/tháng, $C_{mathrm{fixed}} = 125.000.000$ đ/tháng, $c_{mathrm{unit}} = 1.000$ đ/tháng:

$N_{mathrm{hoa\_von}} = \frac{125.000.000}{39.000 - 1.000} \approx 3.289$

Số subscriber cần thiết mỗi tháng là khoảng 3.289.

Kế hoạch MVP

Giai đoạn 1: SMS Scanner & Database (Tuần 1–4, 2026-04-17 → 2026-05-14)

Thiết lập hạ tầng cloud (GPU server), database
Thu thập 1.000 pattern scam nội địa ban đầu (manual research)
Fine-tune Vietnamese BERT trên tập scam data
Module SMS Scanner: pattern match + NLP inference
Module Community Reporting

Tiêu chí kết thúc: AI phát hiện ≥90% trên tập test gồm 500 tin nhắn scam đã label.

Giai đoạn 2: Link Checker & Caller Detection (Tuần 5–8, 2026-05-15 → 2026-06-11)

Module Link Checker: domain similarity + VirusTotal + database
Module Caller ID Spoofing Detection: STIR/SHAKEN + agency blacklist
Extension trình duyệt (Chrome, Cốc Cốc)
On-device AI model (quantization + mobile deployment)
Beta test với 500 user

Tiêu chí kết thúc: False positive rate ≤2% trên 1.000 tin nhắn thật. On-device inference ≤500ms.

Giai đoạn 3: Launch & Scale (Tuần 9–12, 2026-06-12 → 2026-07-09)

Public launch trên App Store và Google Play
Viral campaign: khuyến khích báo cáo scam
Module Family Alert
Database đạt ≥5.000 pattern

Tiêu chí kết thúc: 20.000 lượt cài đặt, 1.000 subscriber trả phí, database ≥5.000 pattern.

Các yêu cầu

Yêu cầu 1: ScamBlock phải phát hiện tin nhắn SMS/Zalo lừa đảo nhắm vào người dùng Việt Nam (bao gồm giả mạo VietinBank, Vietcombank, MoMo, Zalo, VNPay, và giả công an) với độ nhạy (recall) ≥90% và tỷ lệ false positive ≤2%, được đo trên tập test gồm 500 tin nhắn scam và 5.000 tin nhắn thật từ người dùng Việt Nam.

Yêu cầu 2: ScamBlock phải phát hiện domain giả mạo (domain similarity > 0.8 so với legitimate brand) trong thời gian ≤1 giây từ khi người dùng nhấp link. Hệ thống phải cập nhật database domain giả mạo trong vòng 30 phút kể từ khi có báo cáo cộng đồng đầu tiên.

Yêu cầu 3: ScamBlock phải gửi cảnh báo đến 3 số người thân đã đăng ký trong vòng 10 giây khi phát hiện lừa đảo nhắm vào số điện thoại của người dùng chính, sử dụng kênh dự phòng (SMS + Zalo/chat app) để đảm bảo cảnh báo được nhận.

Yêu cầu 4: ScamBlock phải cho phép người dùng báo cáo lừa đảo qua 1 tap (từ notification hoặc màn hình app), với thời gian từ nhấn nút đến khi báo cáo được gửi ≤3 giây. Báo cáo phải bao gồm: nội dung tin nhắn/cuộc gọi, số nguồn, thời gian, và loại (SMS/cuộc gọi/Zalo).

Yêu cầu 5: ScamBlock phải chạy AI model phát hiện lừa đảo trên thiết bị (on-device inference) với độ trễ ≤500ms trên thiết bị có RAM ≥4GB, không gửi nội dung tin nhắn người dùng lên server trừ khi user chủ động báo cáo.

Claims

Claim 1: ACIL giảm thiệt hại tài chính từ lừa đảo trực tuyến cho người dùng Việt Nam bằng cách phát hiện tin nhắn SMS/Zalo lừa đảo nhắm vào người dùng với độ nhạy (recall) ≥90% và tỷ lệ false positive ≤2%, cao hơn ngưỡng ngành bảo mật Việt Nam hiện tại.

Claim 2: ACIL tăng tốc độ phản ứng của cộng đồng trước chiến dịch lừa đảo mới bằng cách cho phép người dùng báo cáo lừa đảo qua 1 tap (thời gian gửi báo cáo ≤3 giây), với pattern mới được xác minh và thêm vào database trong vòng 30 phút kể từ báo cáo đầu tiên.

Claim 3: ACIL giảm nguy cơ tấn công lừa đảo nhắm vào người cao tuổi bằng cách cho phép gửi cảnh báo đến 3 số người thân đã đăng ký trong vòng 10 giây khi phát hiện lừa đảo nhắm vào số điện thoại chính, sử dụng kênh dự phòng SMS + Zalo.

Claim 4: ACIL bảo vệ quyền riêng tư người dùng bằng cách chạy AI model phát hiện lừa đảo trên thiết bị (on-device inference) với độ trễ ≤500ms trên thiết bị có RAM ≥4GB, không gửi nội dung tin nhắn người dùng lên server trừ khi user chủ động báo cáo.

Quyền sở hữu & Bản quyền

Tài liệu này là tài sản độc quyền của Alpha Chain Ltd. Việc sao chép, phân phối lại, hoặc tạo sản phẩm phái sinh đều yêu cầu sự đồng ý bằng văn bản từ Alpha Chain Ltd.

Lịch sử thay đổi

Phiên bản	Ngày	Tác giả	Thay đổi
1.0	2026-04-17	Alpha Chain Ltd.	Tạo ban đầu

Tóm tắt​

Định nghĩa vấn đề​

Phát biểu vấn đề​

Định lượng thiệt hại​

Phạm vi​

Mô hình vấn đề​

Giải pháp đề xuất​

Các quyết định thiết kế chính​

Tiêu chí thành công​

Luồng hệ thống​

Thuật toán cốt lõi​

Mô tả thuật toán​

Công thức toán học​

Độ phức tạp​

Kiến trúc hệ thống​

Trường hợp sử dụng​

Trường hợp sử dụng 1: Tin nhắn giả mạo VietinBank bị chặn​

Trường hợp sử dụng 2: Người dùng báo cáo cuộc gọi giả công an​

Mô hình kinh doanh​

Mô hình doanh thu​

Cấu trúc chi phí​

Phân tích điểm hòa vốn​

Kế hoạch MVP​

Giai đoạn 1: SMS Scanner & Database (Tuần 1–4, 2026-04-17 → 2026-05-14)​

Giai đoạn 2: Link Checker & Caller Detection (Tuần 5–8, 2026-05-15 → 2026-06-11)​

Giai đoạn 3: Launch & Scale (Tuần 9–12, 2026-06-12 → 2026-07-09)​

Các yêu cầu​

Claims​

Quyền sở hữu & Bản quyền​

Lịch sử thay đổi​