
Data Platform Lead, Legal Data Engineer, Data Engineer - Building Vietnam Legal AI Platform
Công ty TNHH THƯ VIỆN PHÁP LUẬT
Job Description
1. Giới thiệu dự án
THƯ VIỆN PHÁP LUẬT AI – WORKSPACE là Bàn làm việc AI pháp luật dành cho đội ngũ pháp lý của THƯ VIỆN PHÁP LUẬT, doanh nghiệp, chuyên gia pháp lý và người sử dụng pháp luật.
Chúng tôi đang tuyển: 1/ Data Platform Lead, 2/ Legal Data Engineer, 3/ Data Engineer / Analytics Engineer, tham gia xây dựng Data Platform cho TVPL AI và Customer Data Platform (CDP).
2. Vai trò nhóm Data
Nhóm Data chịu trách nhiệm xây dựng và vận hành nền tảng dữ liệu phục vụ cho hai bài toán lớn:
1) TVPL AI / Legal AI Platform
Xử lý dữ liệu pháp luật, tài liệu pháp lý, tài liệu khách hàng; tổ chức dữ liệu theo cấu trúc phù hợp cho RAG, LLM, reasoning và evaluation.
2) CDP / Customer Data Platform
Xây nền dữ liệu cho hồ sơ khách hàng, hành vi sử dụng, event tracking, segmentation, analytics, và các mô hình chấm điểm phục vụ kinh doanh.
Bạn tham gia vào hệ thống đang được xây dựng thật, có sản phẩm thật, có 2 triệu người dùng thật, có Team AI, Team Phần mềm, Team Hạ tầng và Team Pháp lý cực mạnh.
3. Trách nhiệm chính
Bạn sẽ tham gia 1 hoặc nhiều mảng công việc sau, tùy theo vị trí phù hợp:
1) Data Platform Architecture (Kiến trúc nền tảng dữ liệu)
• Thiết kế và kiến trúc dữ liệu tổng thể, bao gồm data lake, data warehouse và data marts .
• Thiết kế dữ liệu có khả năng mở rộng, phục vụ cả AI reasoning lẫn business analytics.
• Định nghĩa data standards, governance policies và best practices dùng chung giữa các Team.
2) Legal Data Pipeline (Luồng xử lý dữ liệu pháp lý)
• Xây dựng pipeline ingest, parse, structure và enrich dữ liệu pháp lý như luật, nghị định, thông tư, hợp đồng, hồ sơ, tài liệu khách hàng.
• Tổ chức dữ liệu theo logic pháp lý, hỗ trợ retrieval , citation và reasoning pipeline.
• Thiết kế metadata để AI có thể hiểu nguồn, cấu trúc và ngữ cảnh của tài liệu.
• Phối hợp với Team Pháp lý để kiểm tra và cải thiện chất lượng dữ liệu pháp luật.
3) ETL / ELT / Batch / Streaming
• Triển khai các pipeline ETL/ELT theo cả mô hình batch và streaming .
• Hỗ trợ cả xử lý dữ liệu real-time và offline .
• Xây dựng pipeline có khả năng mở rộng, ổn định và dễ vận hành.
4) Data Quality / Lineage / Schema
• Đảm bảo chất lượng dữ liệu thông qua validation rules, schema management và data lineage .
• Theo dõi độ mới của dữ liệu, độ trễ xử lý, tính nhất quán và độ tin cậy của dataset.
5) AI Dataset Readiness (Mức sẵn sàng dữ liệu cho AI)
• Phối hợp với Team AI Platform để tối ưu dataset cho LLM, RAG, retrieval và evaluation.
• Chuẩn hóa dữ liệu cho vectorization, search systems , benchmark dataset và guardrails .
6) CDP Data Capability
• Xây dựng dữ liệu cho customer profile, event tracking, segmentation, analytics datasets, scoring data flow và các bài toán phân tích kinh doanh.
• Làm việc với Product, Business Analyst, Team Phần mềm và Team Vận hành để dữ liệu phục vụ đúng nhu cầu sản phẩm và thương mại hóa.
7) Teamwork / Leadership
• Với vị trí Data Platform Lead: Dẫn dắt, hướng dẫn Team Data Engineering, bảo đảm chất lượng bàn giao và khả năng mở rộng của hệ thống.
• Với các vị trí Engineer: Chịu trách nhiệm mạnh ở mảng chuyên môn của mình, phối hợp chặt với AI Team, software Team, infrastructure Team và Legal expert team.
A. Kinh nghiệm
1. Có kinh nghiệm thực tế đến Data Engineering, Data Platform, Data Pipeline, Analytics Engineering, hoặc các hệ thống dữ liệu phục vụ AI / product / analytics.
2. Data Platform Lead, ưu tiên ứng viên có 2 năm kinh nghiệm ở vai trò Lead hoặc tương đương trong xây dựng data platform, warehouse, data pipeline hoặc hệ thống dữ liệu phục vụ AI / analytics / product.
3. Legal Data Engineer hoặc Data Engineer / Analytics Engineer, chấp nhận ứng viên có nền tảng tốt và có khả năng phát triển lên vai trò lớn hơn.
4. Đã từng làm các hệ thống chạy thật với dữ liệu thật, người dùng thật là lợi thế lớn.
B. Năng lực kỹ thuật
Ứng viên nên có kinh nghiệm với một hoặc nhiều công nghệ sau:
1. SQL, Python
2. Công cụ ETL/ELT như Airflow, Spark, Flink
3. Data warehouse như BigQuery, Snowflake, Redshift hoặc tương đương
4. Streaming như Kafka hoặc tương đương
5. Xử lý tài liệu, document parsing, metadata modeling
6. Data pipeline cho các hệ thống AI hoặc analytics
C. Kỹ năng hệ thống
Ứng viên nên hiểu một hoặc nhiều nội dung sau:
1. Distributed data systems
2. Data architecture
3. Data quality, lineage, governance
4. Search systems, vector databases, hoặc semantic data modeling
5. Cách dữ liệu phục vụ cho AI reasoning và business analytics
D. Điểm cộng
Ứng viên có lợi thế nếu:
1. Có kinh nghiệm với RAG pipelines, vector databases hoặc search systems;
2. Có hiểu biết về knowledge graph hoặc semantic data modeling;
3. Đã từng làm việc với legal data hoặc các hệ thống dữ liệu chuyên biệt theo domain;
4. Có kinh nghiệm với customer event systems, customer profile, segmentation, hoặc analytics pipelines;
5. Từng tham gia xây dựng hệ thống dữ liệu quy mô lớn, có yêu cầu cao về độ ổn định và khả năng mở rộng.
4. Tư duy chúng tôi tìm kiếm
1. Hiểu rằng dữ liệu không chỉ để lưu trữ, mà phải phục vụ được AI và sản phẩm thật;
2. Hiểu rằng dữ liệu sai, dữ liệu thiếu cấu trúc, dữ liệu không kiểm soát được chất lượng thì AI và analytics đều sẽ sai;
3. Có tư duy xây hệ thống bền vững, có khả năng mở rộng và dùng được lâu dài;
4. Có trách nhiệm với chất lượng bàn giao;
5. Có khả năng làm việc liên chức năng với AI Engineer, Software Engineer, DevOps, Product Manager và Chuyên viên pháp lý.
5. Môi trường làm việc
1. Làm việc trực tiếp với đội ngũ xây dựng TVPL AI và CDP của THƯ VIỆN PHÁP LUẬT;
2. Có đội AI Research / AI Platform / Software / DevOps / Product / Legal Expert cùng làm;
3. Có dữ liệu pháp luật lớn, dữ liệu sản phẩm thật, dữ liệu khách hàng thật;
4. Có cơ hội xây nền tảng dữ liệu cho một hệ thống Legal AI và Customer Data Platform quy mô lớn tại Việt Nam;
5. Có cơ hội phát triển lên các vai trò lớn hơn theo năng lực thực tế.
6. Quy trình tuyển dụng
1. Trao đổi online về kinh nghiệm data platform, data pipeline, warehouse, document processing, analytics hoặc AI data;
2. Gặp trực tiếp để chia sẻ hiện trạng hệ thống, thảo luận bài toán dữ liệu thực tế và hướng giải quyết;
3. Thảo luận vai trò phù hợp nhất với bạn trong 03 vị trí đang tuyển.