Viet-Trung Tran Assistant professor School of Information and Communication Technology (SOICT),
Hanoi University of Science and Technology (HUST).

Privacy Policy

Privacy Policy

Last updated: October 6th 2024

1. Introduction

This Privacy Policy describes how we collect, use, process, and disclose your information in connection with our Facebook application.

2. Information We Collect

Through Facebook’s API, our application collects and processes:

  • Basic page information
  • Page posts and content
  • Post engagement metrics
  • Page insights data
  • Public comments and reactions

3. How We Use Your Information

We use the collected information for:

  • Managing Facebook page content
  • Creating and scheduling posts
  • Analyzing page performance
  • Generating engagement reports
  • Automating content management

All data processing is performed in accordance with Facebook’s Platform Policies and Terms of Service.

4. Data Storage and Security

We take data security seriously and implement appropriate measures:

  • All data transmissions are encrypted
  • Access to data is strictly controlled
  • Regular security audits are performed
  • Data is stored securely in accordance with industry standards

5. Your Rights

As a user, you have the right to:

  • Access your personal data
  • Request data correction
  • Request data deletion
  • Withdraw permissions
  • Object to data processing

6. Data Retention

We retain your data only for as long as necessary to provide our services and fulfill the purposes outlined in this policy. You can request data deletion at any time.

7. Third-Party Services

Our application uses the following third-party services:

  • Facebook Graph API
  • [Other services if applicable]

8. Changes to This Policy

We may update this Privacy Policy from time to time. We will notify you of any changes by posting the new Privacy Policy on this page.

9. Contact Us

If you have any questions about this Privacy Policy, please contact us:

  • Email: trungtv@soict.hust.edu.vn
  • Website: trungtv.github.io
  • Address: 1A Dai Co Viet, Hai Ba Trung, Ha noi, Viet Nam

By using our application, you consent to our Privacy Policy and agree to its terms.

Time series analysis

Overview

Nhu cầu ước lượng, đánh giá và phán đoán xu thế diễn biến giá cổ phiếu trên thị trường tài chính ngày càng được quan tâm và có giá trị với nhà đầu tư chứng khoán.

Objective

  1. Nghiên cứu các mô hình phán đoán giá cổ phiếu trong tương lai ngắn hạn, trung hạn, dài hạn.
  2. Nghiên cứu mô hình đánh giá phân loại thị trường đang trong giai đoạn: uptrend, downtrend, sideway.
  3. Nghiên cứu mô hình nhận biết các stock trade patterns cơ bản. Ví dụ (https://www.pinterest.com/pin/400609329359740096/)

Resource

  1. Chen, Tai-liang, and Feng-yu Chen. “An intelligent pattern recognition model for supporting investment decisions in stock market.” Information Sciences 346 (2016): 261-274.
  2. Henrique, Bruno Miranda, Vinicius Amorim Sobreiro, and Herbert Kimura. “Literature review: Machine learning techniques applied to financial market prediction.” Expert Systems with Applications 124 (2019): 226-251.
  3. Hu, Hongping, et al. “Predicting the direction of stock markets using optimized neural networks with Google Trends.” Neurocomputing 285 (2018): 188-195.
  4. Zheng, Yuechu, Yain-Whar Si, and Raymond Wong. “Feature extraction for chart pattern classification in financial time series.” Knowledge and Information Systems 63.7 (2021): 1807-1848.
  5. Li, Shangzhe, et al. “Chart GCN: Learning chart information with a graph convolutional network for stock movement prediction.” Knowledge-Based Systems 248 (2022): 108842.
  6. Khodaee, Pouya, Akbar Esfahanipour, and Hassan Mehtari Taheri. “Forecasting turning points in stock price by applying a novel hybrid CNN-LSTM-ResNet model fed by 2D segmented images.” Engineering Applications of Artificial Intelligence 116 (2022): 105464.
  7. Zhang, Wenjun, et al. “Research on Graph Neural Network in Stock Market.” Procedia Computer Science 214 (2022): 786-792.
  8. Wang, Yunong, Yi Qu, and Zhensong Chen. “Review of graph construction and graph learning in stock price prediction.” Procedia Computer Science 214 (2022): 771-778.

Nền tảng gán nhãn dữ liệu cộng đồng

Trạng thái: CLOSED

Mục tiêu

Tham gia xây dựng nền tảng gán nhãn dữ liệu cộng đồng để giải quyết hiệu quả và trọn vẹn thách thức xây dựng bộ dữ liệu học trong các bài toán AI, machine learning.

Tiềm năng thị trường

Gán nhãn dữ liệu cho bài toán xây dựng dữ liệu học là một quá trình tốn kém thời gian và nhiều thách thức. Để xây dựng được một bộ dữ liệu có nhãn lớn, thông thường cần huy động rất nhiều tình nguyện viên tham gia. Mỗi tình nguyện viên đóng góp nhãn cho một tập con của bộ dữ liệu ban đầu, tuy nhiên, vì nhãn mang tính chủ quan của mỗi tình nguyện viên nên cần cơ chế kiểm soát chất lượng để đảm bảo bộ dữ liệu gán nhãn xây dựng được là nhất quán.

Để giải quyết các thách thức trong bài toán tạo và xây dựng bộ dữ liệu có nhãn, đã có rất nhiều nghiên cứu và hệ thống được đưa ra nhằm cải thiện tốc độ và nâng cao chất lượng xây dựng bộ dữ liệu. Trong nhóm các bài toán gán nhãn liên quan tới dữ liệu ảnh, LabelMe [156], VGG [157], là công cụ gán nhãn nguồn mở cho ảnh trên nền web cho phép gán nhãn phân lớp và phân vùng ảnh. Tuy nhiên LabelMe và VGG không có chức năng quản trị dự án cũng như hỗ trợ cơ chế kiểm soát chất lượng khi có nhiều người tham gia gán nhãn ảnh. LabelBox[158] là một nền tảng gán nhãn dữ liệu mới được ra mắt vào 2018, ngoài chức năng cho phép gán nhãn phân lớp và phân vùng ảnh theo biên đa giác, LabelBox hỗ trợ chức năng quản trị dự án, phân phối và kiểm soát chất lượng chéo giữa các tình nguyện viên hoặc tài khoản quản trị. Supervise.ly [159] là một công cụ quản lý dữ liệu và gán nhãn hình ảnh mà tích hợp chức năng học chủ động cho phép hỗ trợ người dùng trong quá trình gán nhãn ảnh. Nền tảng này cũng bao gồm một cơ sở hạ tầng cho phép lưu trữ và tạo các mô hình học máy trên dữ liệu gán nhãn.

Cộng đồng học máy và trí tuệ nhân tạo trong nước rất tích cực tham gia nghiên cứu và kết hợp chuyển giao công nghệ cho doanh nghiệp. Tuy nhiên, với vấn đề xây dựng dữ liệu học, hầu hết các nhóm đều sử dụng các công cụ tự phát triển và cài đặt cho bài toán gán nhãn dữ liệu. Điều này dẫn tới các bộ dữ liệu có nhãn được tạo ra mang tính nhỏ lẻ, khó mở rộng và kiểm soát chất lượng ở quy mô lớn.

Nhóm kỹ năng phù hợp để thực tập

Nhóm chào đón các bạn sinh viên yêu thích làm bài toán có tính thực tiễn, có khả năng thành sản phẩm thương mại. Các bạn sinh viên tham gia vào một trong các phần công việc sau:

  • Được đào tạo phát triển NLP, semi-supervised learning, data mining
  • Được đào tạo và phát triển fullstack
  • Được đào tạo và phát triển frontend Angular, React
  • Được đào tạo phát triển GUI mobile phần gán nhãn và quản lý dự án
  • Được đào tạo và phát triển kỹ năng thiết kế và vận hành sản phẩm

Document understanding AI

Mục tiêu

Nghiên cứu các công nghệ lõi liên quan đến bài toán hiểu và bóc tách các văn bản bán cấu trúc tự động. Đây không phải là bài toán NER (Named Entity Recognition) đơn thuần mà tập trung khai thác các đặc trưng đa thể thức như: đặc trưng văn bản, đặc trưng cấu trúc, đặc trưng trực quan, vvv. Hơn nữa,

Tiềm năng thị trường

80% dữ liệu doanh nghiệp là bán cấu trúc (công văn, hợp đồng, hồ sơ tồn tại dưới dạng các tệp tin docx hoặc pdf). Nguồn dữ liệu này hiện chưa thực sự được khai thác, cấu trúc hóa do nhiều thách thức về mặt công nghệ. Tuy nhiên đây lại là nguồn dữ liệu mang nhiều giá trị, chẳng hạn, các tổ chức có thể:

  1. Bóc tách tự động các điều khoản trong hợp đồng để sắp xếp phân loại, kiểm tra tính pháp lý của các điều khoản

  2. Bóc tách tự động các báo cáo tài chính phục vụ cho phân tích dữ liệu

  3. Bóc tách tự động các CV tìm việc để tự động hóa quy trình phân loại và sơ loại ứng viên

  4. Bóc tách hồ sơ y tế tự động

  5. Xây dựng cơ sở tri thức văn bản pháp luật

Công nghệ

Các công nghệ nhóm Document Understanding AI nghiên cứu là các công nghệ thuộc lĩnh vực học máy, xử lý ngôn ngữ tự nhiên. Cụ thể:

  • Information retrieval

  • Knowledge base construction

  • Active learning, reinforcement learning

  • Đặc biệt, nhóm hướng tới các giải thuật bán giám sát, hoặc giám sát yếu để có thể học trong môi trường ít hoặc không có dữ liệu có nhãn.

Tham khảo demo: http://parser.yourway.vn

https://cloud.google.com/solutions/document-understanding/

Pair Trading

Introduction

A pairs trade is a trading strategy that involves matching a long position with a short position in two stocks with a high correlation.

Objective

Students can research on pair trading algorithms and apply them to Vietnam stock market.

Resource

  1. https://www.investopedia.com/terms/p/pairstrade.asp
  2. Elliott, Robert J., John Van Der Hoek*, and William P. Malcolm. “Pairs trading.” Quantitative Finance 5.3 (2005): 271-276.
  3. Vidyamurthy, Ganapathy. Pairs Trading: quantitative methods and analysis. Vol. 217. John Wiley & Sons, 2004.
  4. Nazário, Rodolfo Toríbio Farias, et al. “A literature review of technical analysis on stock markets.” The Quarterly Review of Economics and Finance 66 (2017): 115-126.
  5. Fang, Fan, et al. “Cryptocurrency trading: a comprehensive survey.” Financial Innovation 8.1 (2022): 1-59.
  6. Rad, Hossein, Rand Kwong Yew Low, and Robert Faff. “The profitability of pairs trading strategies: distance, cointegration and copula methods.” Quantitative Finance 16.10 (2016): 1541-1558.
  7. Flori, Andrea, and Daniele Regoli. “Revealing pairs-trading opportunities with long short-term memory networks.” European Journal of Operational Research 295.2 (2021): 772-791.
  8. Li, Yongli, et al. “Detecting the lead–lag effect in stock markets: definition, patterns, and investment strategies.” Financial Innovation 8.1 (2022): 51.
  9. Du, Juan. “Mean–variance portfolio optimization with deep learning based-forecasts for cointegrated stocks.” Expert Systems with Applications 201 (2022): 117005.
  10. Chen, Wei, Haoyu Zhang, and Lifen Jia. “A novel two-stage method for well-diversified portfolio construction based on stock return prediction using machine learning.” The North American Journal of Economics and Finance 63 (2022): 101818.

It5425 Quan Tri Du Lieu Va Truc Quan Hoa

IT5425 Quản trị dữ liệu và trực quan hóa (Data management and visualization)

  • Khối lượng (Credits): 2(2-1-0-4)
  • Học phần tiên quyết (Prerequisite): Không (None)
  • Học phần học trước (Pre-courses): Không (None)
  • Học phần song hành (Corequisite Courses): Không (None)

Mục tiêu: Môn học này nhằm cung cấp những kiến thức nền tảng về 2 vấn đề quản trị và trực quan hoá dữ liệu. Môn học dẫn dắt sinh viên từ bài toán tổ chức dữ liệu tới làm sạch và tiền xử lý dữ liệu, sử dụng các công cụ trực quan hoá để phân tích thăm dò dữ liệu và cuối cùng là trình diễn, kể chuyện với dữ liệu. Sinh viên thực hành trên ngôn ngữ Python, trực tiếp trên tập dữ liệu của các bài toán thực tiễn. Kết thúc môn học, sinh viên có thể lựa chọn các giải pháp và công cụ lưu trữ và trực quan hoá dữ liệu trong bài toán thực tế.

Objectives: This course provides basic foundations on data management and visualization. Students are trained to design and propose solutions to store, manage, integrate data and finally able to visually present a story on the data and data insights. Real-life applications and datasets will be provided for practicing on Python language and libraries throughout the lessons. After finishing the course, students will know how to represent and analyze data with visual tools, as well as know how to apply each type of chart to different purposes depending on the characteristics of the data.

Google Drive resources

It4859q Thiet Ke Va Quan Tri Csdl

Course organization

  1. Introduction to database tuning
  2. Optimization of schema and data types
  3. Reading topic 1: Benchmarking and profiling MySQL server
  4. Query tuning 1
  5. Query tuning 2
  6. Reading topic 2: Advance MySQL features
  7. Index tuning 1
  8. Index tuning 2
  9. Reading topic 3: Replication in MySQL
  10. Explain command
  11. Concurrency tuning
  12. Reading topic 4: High availability and scaling MySQL
  13. NoSQL data models
  14. Reading topic 5: Backup and recovery
  15. Recap

Materials

Google drive folder

HƯỚNG DẪN BẢO VỆ ĐỒ ÁN TỐT NGHIỆP (BẢN ĐẦY ĐỦ NHẤT) DÀNH CHO SINH VIÊN K60 SẮP BẢO VỆ

SINH VIÊN THẦY TRUNG HƯỚNG DẪN HOẶC PHẢN BIỆN CHÚ Ý

Sinh viên nộp báo cáo, đồ án tốt nghiệp trước bảo vệ, phản biện vào đây.

Nguồn bài viết:

- Bài viết: Thầy Nguyễn Tiến Dũng (ĐHBKHN)
- Bonus: Thầy Lê Đức Trung (ĐHBKHN)

I) CHUẨN BỊ BÀI THUYẾT TRÌNH

  1. Mỗi Hội đồng chấm ĐATN có ít nhất 3 thành viên, bao gồm 1 Chủ tịch HĐ, 1 Thư ký HĐ và một (số) Uỷ viên HĐ.
  2. Trước buổi bảo vệ ĐATN đầu tiên, mỗi SV sẽ biết mình thuộc Hội đồng nào và ở thứ tự bao nhiêu trong danh sách các SV trong Hội đồng đó. Nếu các SV không có ý kiến gì về thứ tự bảo vệ, các SV sẽ bảo vệ ĐATN theo thứ tự được ghi trong danh sách này. Nếu một SV muốn thay đổi thứ tự bảo vệ, cần xin phép Chủ tịch Hội đồng vào đầu của buổi bảo vệ ĐATN đầu tiên.
  3. Phần bảo vệ tốt nghiệp của mỗi SV tốt nghiệp sẽ diễn ra không dài hơn 50 phút (thường thường là 30 phút, trường hợp đặc biệt có thể dài hơn), gồm 3 phần nhỏ:
    • Phần thuyết trình (10-15 phút),
    • Phần đọc nhận xét của giáo viên duyệt (5-10 phút)
    • Phần trả lời các câu hỏi của hội đồng (10-20 phút).
  4. Cần tập rượt cho bài thuyết trình thật kỹ trong giới hạn thời gian cho phép. Tránh thuyết trình quá ngắn (dưới 10 phút) vì sẽ bị đánh giá là không biết thuyết trình, cũng tránh thuyết trình quá dài (trên 15 phút) vì sẽ bị Chủ tịch Hội đồng ngắt lời và phải dừng lại.
  5. Thời gian nghỉ giải lao giữa các lượt bảo vệ ĐATN là rất ngắn (2-5ph) hoặc không có (tùy vào thời gian thực tế diễn ra), vì vậy, để đảm bảo thời gian, khi sắp đến lượt SV nào, thì SV đó phải copy sẵn Slide trong USB (nếu sử dụng máy tính có sẵn trên bàn bảo vệ) và copy vào laptop trên bảo bảo vệ, hoặc kết nối máy chiếu với laptop (nếu sử dụng laptop riêng), trình chiếu thử slide lên máy chiếu để đảm bảo sẵn sàng bài BVĐA trong lúc Hội đồng công bố kết quả của SV vừa bảo vệ.
  6. Có thể tập thuyết trình trước. Nên mời một số bạn tới để cùng giúp nhau tập thuyết trình và trả lời câu hỏi. Nên sử dụng đồng hồ bấm thời gian và máy ghi âm (nếu có máy ghi âm) để thực hành kiểm soát thời gian và nội dung thuyết trình.
  7. Phần thuyết trình phải to, rõ ràng, truyền cảm, lô-gíc.
    • Tránh nói quá nhỏ hoặc quá nhanh khiến hội đồng không nghe rõ những gì SV muốn nói.
    • Tránh nói quá chậm vì sẽ không đảm bảo trình bày hết nội dung trong thời gian cho phép và vì sẽ bị Hội đồng đánh giá thấp.
    • Tránh nói trùng lắp hoặc không lô-gíc.
  8. Vì thời gian hạn chế, không nên trình bày quá nhiều phần Cơ sở lý thuyết, các phần khái niệm, giới thiệu chung…nên cô đọng, chỉ đưa những thông tin có liên quan mật thiết tới đề tài tốt nghiệp.
  9. Phần chào hỏi mở đầu bài thuyết trình nên ngắn gọn, tránh dông dài vì sẽ mất thời gian trình bày những phần trọng tâm là phần phân tích và biện pháp. Ví dụ thông dụng nhất của phần chào hỏi như sau:,“Kính thưa thày Chủ tịch hội đồng và các thày (cô) trong hội đồng, thưa toàn thể các bạn. Em là Nguyễn Văn A lớp ABC. Hôm nay em xin trình bày đồ án tốt nghiệp của mình với tên đề tài là XYZ. Sau đây em xin bắt đầu.”
  10. Nên có cây chỉ (pointer) khi thuyết trình để giúp chỉ chính xác những số liệu mà sinh viên muốn trình bày. Đơn giản nhất là một cây tre hoặc gỗ thuôn dài, có đầu chỉ hơi nhọn. Trên thị trường có bán những cây chỉ trông giống như cây bút, có thể kéo dài ra được. Có thể sử dụng ăng-ten râu của radio hoặc máy thu hình làm cây chỉ cũng được.
  11. Cần tập tác phong thuyết trình đúng:
    • Đứng thẳng, tránh lòng khòng, tránh ngả nghiêng, tránh đút tay vào túi quần;
    • Quay mặt về phía hội đồng;
  12. Trang phục cần chỉnh tề. Nam SV nên bỏ áo trong quần, có thể đeo cà-vạt. Nữ SV có thể mặc áo dài hoặc đồ âu. Tránh mặc quần áo quá sặc sỡ hoặc quá ngắn.
  13. Sau khi trình bày xong biện pháp cuối cùng, sinh viên cần có câu kết thúc bài thuyết trình. Chẳng hạn như: “Em đã trình bày xong đồ án tốt nghiệp của mình. Em xin gửi lời cảm ơn đến thầy cô ABC (chức danh, tên đầy đủ của giáo viên hướng dẫn) đã nhiệt tình giúp đỡ em hoàn thiện ĐATN. Tuy đã cố gắng nhưng với kiến thức còn hạn chế, chắc chắn ĐATN của em không tránh khỏi những sai sót. Em rất mong nhận được ý kiến của các thày (cô) và các bạn để bản ĐATN của em được hoàn thiện hơn. Em xin chân thành cảm ơn.” Sau đó, chuẩn bị giấy bút nghe thư ký Hội đồng đọc nhận xét và đọc câu hỏi phản biện.

II) CHUẨN BỊ TRẢ LỜI CÂU HỎI

  1. Sau khi Thư ký Hội đồng đọc câu hỏi phản biện, thông thường vị Chủ tịch Hội đồng sẽ nói “Mời các thày (cô) khác trong Hội đồng ra câu hỏi.” Nếu không có ai ra câu hỏi ngay lúc đó,vị Chủ tịch này thường nói: “Xin mời SV suy nghĩ trả lời câu hỏi phản biện trước, sau đó Hội đồng sẽ hỏi thêm.”
  2. Sinh viên cần có một bản copy ĐATN, ngoài những bản đã gửi cho người hướng dẫn và hội đồng. Trong trường hợp được yêu cầu giải thích một số từ ngữ, công thức đã trình bày ở một trang nào đó trong đồ án, sinh viên ghi lại yêu cầu và sử dụng đồ án để giải thích.
  3. Sinh viên cần chuẩn bị giấy bút để ghi lại các câu hỏi của các thành viên trong hội đồng. Cần ghi tất cả các câu hỏi, sau đó lựa chọn trả lời câu nào trước cũng được, không nhất thiết phải theo thứ tự hỏi. Tránh trả lời ngay lập tức khi các thầy cô mới đặt xong một câu hỏi. Tuyệt đối không nói chen vào lúc thầy cô đang đặt câu hỏi.
  4. Các trả lời cần to, rõ ràng, ngắn gọn, tập trung đúng vào ý mà người hỏi muốn hỏi. Tránh trả lời loanh quanh, không đúng câu hỏi. Nếu vấn đề nào SV cảm thấy chưa chắc chắn, nên thẳng thắn thừa nhận: “Thưa thày (cô), em chưa tìm hiểu kỹ vấn đề này. Nhưng theo những gì em biết thì đó là ABC.”
  5. Nếu SV cảm thấy mình chưa rõ câu hỏi, hãy mạnh dạn hỏi lại Hội đồng một cách khéo léo: “Thưa thày (cô), ý thày (cô) muốn hỏi có phải là XYZ hay không?”. Người ra câu hỏi hoặc các thành viên khác trong Hội đồng sẽ làm rõ câu hỏi và có thể gợi ý cách trả lời.

III. CÁC VẤN ĐỀ KHÁC

  1. Sau khi kết thúc phần trả lời câu hỏi, Chủ tịch HĐ sẽ hỏi các thành viên trong HĐ 1 lần nữa xem có ai có câu hỏi nào nữa không. Khi không còn câu hỏi nào, Chủ tịch HĐ sẽ báo là kết thúc phần BVĐA của SV, SV cảm ơn các thầy cô trong HĐ. Lúc này HĐ sẽ thảo luận để chấm điểm ĐATN của SV, trong lúc HĐ thảo luận, Thư ký HĐ mời tất cả SV ra ngoài. Sau khi thảo luận xong, Thư ký HĐ mời tất cả SV vào và thông báo kết quả (trong lúc thông báo kết quả, SV tiếp theo lên bàn bảo vệ để chuẩn bị sẵn sàng báo cáo ngay sau khi HĐ thông báo kết quả xong).
  2. Điểm đồ án tốt nghiệp của sinh viên sẽ là trung bình cộng của các điểm:
    • Điểm hướng dẫn, do người giáo viên hướng dẫn chấm;
    • Điểm phản biện do người phản biện chấm;
    • Điểm bảo vệ do các thành viên Hội đồng chấm ĐATN đưa ra. Do đó, để có điểm ĐA tốt nghiệp cao, cả ba điểm trên đều phải cao.

BONUS MỘT SỐ LỖI THƯỜNG GẶP

  1. Bất cứ khái niệm khoa học nào khi trình bày đều phải có giới thiêu/ cắt nghĩa nó là cái gì/ tại sao là trình bày. Nhiều sinh viên nói ngay một cái tên lạ, coi như khán thính giả ai cũng biết nó rồi, tiếp sau là ba hoa về một thứ không ai quan tâm vì không biết nó là gì. Đối tượng mang bạn gái đến tiệc Sinh nhật, không giới thiệu gì mà cắm cúi ăn, trong khi bạn bè lại thấy người mới già dặn quá thi nhau chào là bác vì tưởng là mẹ của đối tượng.
  2. Không quan tâm đến người nghe, trong khi lại đòi người nghe quan tâm tới mình. Hội đồng cho 15 phút, thì mình hãy trình bày rõ ràng mạch lạc, chính xác vấn đề trong vòng 12-14 phút tặng cho Hội đồng 2-3 phút yên tĩnh không phá quấy, đó là quan tâm đến sức khỏe của hội đồng, Hội đồng sẽ có lòng nhân hậu tặng thêm điểm thưởng cho người biết luật vàng “Khách hàng là thượng đế”.
  3. Tỏ ra nguy hiểm. Mình làm được như thế nào, làm được đến đâu cứ trình bày bình tĩnh, cái gì mình không làm được cũng nêu ra. Chủ yếu Hội đồng chấm công sức nỗ lực của sinh viên căn cứ trên thời gian, độ khó của bài toán và lượng kiến thức 4-5 năm học. Không ai bắt buộc sinh viên phải siêu sát thủ trong lĩnh vực đó, nếu vậy thì sinh viên đã ngồi trên ghế Chủ tịch hội đồng.

Hy vọng post này của Ad giúp các bạn sắp bảo vệ ĐATN tự tin hơn và chuẩn bị tốt hơn để buổi bảo vệ thành công và suôn sẻ. Cảm thấy hữu ích thì share, like và tag bạn bè nha (y). #DoAnTotNghiep #BaoVeTotNghiep #Hust

Thông báo v/v tổ chức học online các lớp 20192

Chào các em, Mình đã gửi các em email để các em join vào Microsoft Teams, học online đúng giờ lên lớp theo lịch của trường. Các em cài Microsoft Teams và đăng nhập bằng tài khoản email trường nhé. https://teams.microsoft.com/downloads

Đây là link tham gia vào Chanel của thầy: Trungtv.SOICT

Danh sách các lớp thầy phụ trách:
20192_trungtv.png

Các em join nếu không được thì email lại thầy gấp nhé.
Thầy chào các em,

IT3290E - Database lab

Schedule

Week Subject
1 Preparation for lab environment
2 CREATE and ALTER table statements
3 Basic SELECT statement (project, filter and sort)
4 INSERT, UPDATE and DELETE statements
5 SQL Constraints
6 SELECT with JOIN
7 Aggregate Functions and Group by
8 Mid-term assessment
9 Sub-query statement
10 String functions
11 Date and time functions
12 Review
13 Review
14 Capstone project
15 Capstone project

Tài liệu môn học

Gdrive folder

Nội dung bài tập lớn môn học

  • Mỗi nhóm bài tập lớn gồm max 3 sinh viên.
  • Nội dung BTL bao gồm
    1. Giới thiệu về lược đồ CSDL đã thiết kế. Lược đồ CSDL không cần quá nhiều bảng và quá phức tạp. Có thể lấy ý tưởng từ các sản phẩm thực tiễn nhưng chỉ cần đưa vào báo cáo 1 phần của lược đồ CSDL liên quan đến các câu truy vấn ở phần bên dưới. Phân tích rõ tại sao lại thiết kế như vậy. Chú ý các vấn đề như kiểu dữ liệu, khoá chính, khoá ngoại, các loại ràng buộc nếu có.
    2. Phần viết truy vấn chia làm các phần con. Mỗi sinh viên đưa ra ít nhất 10 yêu cầu truy vấn và đáp án đi kèm. Lưu ý tối đa các dạng truy vấn khác nhau đã sử dụng.

IT5426 - Học sâu

Tài liệu tham khảo

  1. Bengio Y., Goodfellow, I.J. and Courville, A. (2015). Deep Learning. MIT Press.
  2. Pattanayak, Santanu. “Pro deep learning with TensorFlow: a mathematical approach to advanced artificial intelligence in Python.” (2017).
  3. Deng, Li, and Yang Liu, eds. Deep Learning in Natural Language Processing. Springer, 2018.
  4. Nikhil Ketkar. Deep Learning with Python : A Hands-on Introduction. 2017.
  5. Mukhopadhyay, Sayan. Advanced Data Analytics Using Python : With Machine Learning, Deep Learning and NLP Examples. 2018
  6. Géron, Aurélien. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. “ O’Reilly Media, Inc.”, 2017.
  7. Chollet, Francois. Deep learning with python. Manning Publications Co., 2017. Shukla, Nishant. Machine learning with TensorFlow. O’Reilly Media, 2017.

Nội dung bài giảng

Gdrive folder

IT4931 - Lưu trữ và xử lý dữ liệu lớn

Lịch giảng dạy

T Nội dung
1 Chương 1: Tổng quan về lưu trữ và xử lý dữ liệu lớn
2 Chương 2: Hệ sinh thái Hadoop
3 Chương 8: Kiến trúc dữ liệu lớn + Giới thiệu bài tập lớn
4 Chương 3: Hệ thống tệp phân tán Hadoop (HDFS)
5 Chương 4: Cơ sở dữ liệu quan hệ NoSQL - phần 1
6 Chương 4: Cơ sở dữ liệu quan hệ NoSQL - phần 2
7 Chương 4: Cơ sở dữ liệu quan hệ NoSQL - phần 3
8 Chương 5: Hệ thống nhắn tin phân tán
9 Chương 6: Kỹ thuật xử lý dữ liệu lớn - Spark
10 Chương 6: Kỹ thuật xử lý dữ liệu lớn - Spark phần 2
11 Chương 7: Kỹ thuật xử lý luồng dữ liệu lớn - Spark structured streaming
12 Chương 9: Phân tích dữ liệu lớn
13 Thuyết trình dự án tổng hợp
14 Thuyết trình dự án tổng hợp
15 Thuyết trình dự án tổng hợp
16 Tổng kết

This schedule covers 15 weeks, with the main content spread across the first 12 weeks and the last 3 weeks dedicated to capstone project presentations. Is there anything you’d like me to modify or explain further about this schedule?

Tài liệu tham khảo

  1. Tiwari, Shashank. Professional NoSQL. John Wiley & Sons, 2011.
  2. Lam, Chuck. Hadoop in action. Manning Publications Co., 2010.
  3. Miner, Donald, and Adam Shook. MapReduce design patterns: building effective algorithms and analytics for Hadoop and other systems. “ O’Reilly Media, Inc.”, 2012.
  4. Karau, Holden. Fast Data Processing with Spark. Packt Publishing Ltd, 2013.
  5. Penchikala, Srini. Big data processing with apache spark. Lulu. com, 2018.
  6. White, Tom. Hadoop: The definitive guide. “ O’Reilly Media, Inc.”, 2012.
  7. Gandomi, Amir, and Murtaza Haider. “Beyond the hype: Big data concepts, methods, and analytics.” International Journal of Information Management 35.2 (2015): 137-144.
  8. Cattell, Rick. “Scalable SQL and NoSQL data stores.” Acm Sigmod Record 39.4 (2011): 12-27.
  9. Gessert, Felix, et al. “NoSQL database systems: a survey and decision guidance.” Computer Science-Research and Development 32.3-4 (2017): 353-365.
  10. George, Lars. HBase: the definitive guide: random access to your planet-size data. “ O’Reilly Media, Inc.”, 2011.
  11. Sivasubramanian, Swaminathan. “Amazon dynamoDB: a seamlessly scalable non-relational database service.” Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. ACM, 2012.
  12. Chan, L. “Presto: Interacting with petabytes of data at Facebook.” (2013).
  13. Garg, Nishant. Apache Kafka. Packt Publishing Ltd, 2013.
  14. Karau, Holden, et al. Learning spark: lightning-fast big data analysis. “ O’Reilly Media, Inc.”, 2015.
  15. Iqbal, Muhammad Hussain, and Tariq Rahim Soomro. “Big data analysis: Apache storm perspective.” International journal of computer trends and technology 19.1 (2015): 9-14.
  16. Toshniwal, Ankit, et al. “Storm@ twitter.” Proceedings of the 2014 ACM SIGMOD international conference on Management of data. ACM, 2014.
  17. Lin, Jimmy. “The lambda and the kappa.” IEEE Internet Computing 21.5 (2017): 60-66.  

    Nội dung bài giảng

    Gdrive folder

Lab on Gdrive

Lab on github

Hướng dẫn thực hiện Milestone Project - Môn Lưu trữ và Xử lý Dữ liệu Lớn

I. Mục tiêu và Yêu cầu Chung

Milestone project yêu cầu sinh viên xây dựng một hệ thống xử lý dữ liệu lớn hoàn chỉnh, áp dụng kiến thức đã học để giải quyết một bài toán thực tế. Sinh viên cần triển khai một trong hai mô hình kiến trúc phổ biến là Lambda Architecture hoặc Kappa Architecture, tập trung vào việc xây dựng pipeline xử lý dữ liệu end-to-end từ việc thu thập, xử lý đến lưu trữ và trực quan hóa kết quả.

Yêu cầu kỹ thuật

Project yêu cầu sử dụng các công nghệ core bao gồm:

  • Apache Spark cho xử lý dữ liệu (PySpark hoặc Scala)
  • Hệ thống lưu trữ phân tán (HDFS hoặc tương đương)
  • Message queue system (Apache Kafka, RabbitMQ,…)
  • NoSQL database
  • Môi trường triển khai: k8s hoặc cloud (Không khuyến khích docker vì k8s gần với môi trường production hơn)

Yêu cầu về xử lý dữ liệu với Spark

Sinh viên cần thể hiện khả năng sử dụng Spark ở mức độ intermediate thông qua việc áp dụng đa dạng các transformation và action. Nếu không sử dụng spark mà sử dụng các framework tương đương thì cần trình bày rõ kiến trúc xử lý, ưu nhược điểm của framework này so sánh tương quan với spark.

  1. Complex Aggregations
    • Window functions và các hàm aggregation phức tạp
    • Pivot và unpivot operations
    • Custom aggregation functions
  2. Advanced Transformations
    • Multiple stages của transformations
    • Chain các operations phức tạp
    • Custom UDFs cho business logic đặc thù
  3. Join Operations
    • Broadcast joins cho các dataset không cân bằng
    • Sort-merge joins cho large-scale data
    • Multiple joins optimization
  4. Performance Optimization
    • Partition pruning và bucketing
    • Caching và persistence strategies
    • Query optimization và execution plans
  5. Streaming Processing
    • Structured Streaming với various output modes
    • Watermarking và late data handling
    • State management trong streaming
    • Exactly-once processing guarantees
  6. Advanced Analytics
    • Machine learning với Spark MLlib
    • Graph processing với GraphFrames
    • Statistical computations
    • Time series analysis

II. Yêu cầu Nội dung Báo cáo

1. Đặt vấn đề

  • Bài toán được lựa chọn
  • Phân tích tính phù hợp của bài toán với big data
  • Phạm vi và giới hạn của project

2. Kiến trúc và Thiết kế

  • Kiến trúc tổng thể (Lambda/Kappa)
  • Chi tiết từng component và vai trò
  • Data flow và component interaction diagrams

3. Chi tiết triển khai

  • Source code với documentation đầy đủ
  • Configuration files theo môi trường
  • Deployment strategy
  • Monitoring setup

4. Bài học kinh nghiệm

Template cho mỗi kinh nghiệm:

### Kinh nghiệm X: [Tên kinh nghiệm]

#### Mô tả vấn đề
- Context và background
- Thách thức gặp phải
- Impact với hệ thống

#### Các giải pháp đã thử
- Approach 1: ...
- Approach 2: ...
- Trade-offs của mỗi approach

#### Giải pháp cuối cùng
- Chi tiết giải pháp
- Implementation details
- Metrics và results

#### Bài học rút ra
- Technical insights
- Best practices
- Recommendations

Các nhóm kinh nghiệm cần cover:

  1. Kinh nghiệm về Data Ingestion
    • Xử lý nhiều nguồn dữ liệu đa dạng
    • Đảm bảo data quality
    • Xử lý late arriving data
    • Handle duplicates và data versioning
  2. Kinh nghiệm về Data Processing với Spark
    • Tối ưu Spark jobs
    • Memory management
    • Partition tuning
    • Cost-based optimization
  3. Kinh nghiệm về Stream Processing
    • Exactly-once processing
    • Windowing strategies
    • State management
    • Recovery mechanism
  4. Kinh nghiệm về Data Storage
    • Storage format selection
    • Partitioning strategy
    • Compression techniques
    • Hot/cold data handling
  5. Kinh nghiệm về System Integration
    • Service discovery
    • Error handling
    • Circuit breaker pattern
    • Load balancing
  6. Kinh nghiệm về Performance Optimization
    • Caching strategies
    • Query optimization
    • Resource allocation
    • Bottleneck identification
  7. Kinh nghiệm về Monitoring & Debugging
    • Metrics collection
    • Alert configuration
    • Log aggregation
    • Root cause analysis
  8. Kinh nghiệm về Scaling
    • Horizontal vs vertical scaling
    • Auto-scaling policies
    • Resource planning
    • Cost optimization
  9. Kinh nghiệm về Data Quality & Testing
    • Data validation
    • Unit testing
    • Integration testing
    • Performance testing
  10. Kinh nghiệm về Security & Governance
    • Access control
    • Data encryption
    • Audit logging
    • Compliance requirements
  11. Kinh nghiệm về Fault Tolerance
    • Failure recovery
    • Data replication
    • Backup strategies
    • Disaster recovery

IT3120 - Phân tích thiết kế hệ thống thông tin

Sách tham khảo

  1. Satzinger, John W., Robert B. Jackson, and Stephen D. Burd. Systems analysis and design in a changing world. Cengage learning, 2011.
  2. Pressman, Roger S. Software engineering: a practitioner’s approach. Palgrave macmillan, 2005.
  3. Kendall, Kenneth E., and Julie E. Kendall. Systems analysis and design. Prentice Hall Press, 2010.

Nội dung bài giảng

Gdrive folder

Kế hoạch học tập

  • Week 1. - Introduction to Systems analysis and design - System development life cicle
  • Week 2. - System development life cicle (cont.) - Project management overview
  • Week 3. Teamwork checkpoint - Vision document showcase
  • Week 4. - Requirement analysis - Intro UML
  • Week 5. - Functional analysis
  • Week 6. - Structural analysis
  • Week 7. - Structural analysis (cont.)
  • Week 8. Teamwork checkpoint
  • Week 9. - Interactive analysis
  • Week 10. - Interactive analysis (cont.)
  • Week 11. - Behavioral_analysis
  • Week 12. - Class and database design
  • Week 13. - System design - UI UX design
  • Week 14. - Capstone
  • Week 15. - Capstone
  • Week 16. - Capstone

IT3090 - Nhập môn Cơ sở dữ liệu

Tài liệu tham khảo

  1. Elmasri, Ramez, and Sham Navathe. Fundamentals of database systems. Vol. 7. Pearson, 2017.

Nội dung bài giảng

Gdrive folder

Hướng dẫn tham gia video call hướng dẫn các nhóm project, đồ án 20191

Do tình hình dịch bênh covid-19 diễn biến phức tạp, các em sinh viên được phân công dưới sự hướng dẫn của thầy có thể tham gia nhóm trên Microsoft Teams của trường để thực hiện các buổi video call thay cho gặp mặt trực tiếp tại trường. Các em dùng tài khoản email trường, tham gia nhóm tại link sau đây: Link tham gia

Sau khi join nhóm, thầy sẽ thêm các em vào Channel tương ứng với kỳ học. Ví dụ: DATN.20191.
Các em lưu lý, kênh trao đổi chính vẫn là nhóm trên facebook.

Hướng dẫn thực hiện công việc project, đồ án, TTDN

  1. Join Microsoft Teams và tạo channel riêng cho nhóm theo hướng dẫn của giáo viên.
  2. Join group nhóm sinh viên làm việc với giáo viên hướng dẫn trên facebook
  3. Đăng ký trên Link Google Form. Mỗi sinh viên đăng ký riêng vào form để phục vụ công tác quản lý, vào điểm [KHÔNG ĐĂNG KÝ DỄ DẪN ĐẾN SAI SÓT KHÔNG CÓ ĐIỂM].

  4. SV chia sẻ thư mục đồ án trên google drive cho giáo viên hướng dẫn (vào email trungtv@soict.hust.edu.vn). Mỗi nhóm chung 1 thư mục. (Trong trường hợp không sử dụng github thì thêm user https://github.com/trungtv vào repo)

    Cách đặt tên thư mục: [Type]_[0]_[1]_[2]_[3]_[4]

    • [Type] nếu là project thì là P, là đồ án thì ghi DA,
    • [0]: Mã đồ án. Ví dụ 1, 2 hoặc 3
    • [1]: Học kỳ đồ án. Ví dụ: học kỳ 2 năm 2015 thì ghi 20152
    • [2]: Chương trình đào tạo. CN: cử nhân, KS: Kỹ sư, TN: Kỹ sư tài năng, VN: Việt Nhật, SIE: hợp tác quốc tế, ICT: Chất lượng cao, PFIEV: Việt pháp.
    • [3]: Tên Sinh viên viết có dấu, phân cách từ bằng ký tự ‘_’. Ví dụ: Trần_Việt_Trung
    • [4]: Mã số sinh viên. Ví dụ 2012323
    • Ví dụ tên thư mục chuẩn: P_2_20152_KS_Trần_Nhật_Nam_2012232. Nếu có nhiều sinh viên thì lặp lại Tên, và mã số sinh viên. Ví dụ P_2_20152_KS_Trần_Nhật_Nam_2012212_Nguyễn_Quang_Sáng_2011232

    Các file trong thư mục là các file như dưới đây. Khuyến cáo sử dụng Google doc, google excel, google presentation để tiện chỉnh sửa online

    1. Mỗi đơn vị công việc là một file báo cáo riêng (có thể theo tuần) được đặt tên có số thứ tự từ 1..n. Ví dụ 1_Mô Tả bài toán, 2_Biểu đồ ca sử dụng, etc.
    2. Báo cáo cuối cùng. Đặt tên theo cú pháp [Final_Report]_[Học kỳ đồ án]_[Tên đề tài]. Ví dụ Final_Report_20152_ứng_dụng_deep_learning_trong_xử_lý_văn_bản_tiếng_việt. Báo cáo cuối cùng là tổng hợp của các báo cáo dơn vị
    3. Slide bảo vệ (.ppt hoặc .pdf) (nếu có)
    4. Báo cáo công việc hàng tuần theo mẫu ở đây. Sinh viên clone lại file mẫu sau đó điền công việc hàng tuần. Nếu làm nhóm thì nhóm chung 1 file báo cáo. Mẫu báo cáo
  5. Các ví dụ (Lưu ý đây chỉ là báo cáo có tính chất tham khảo, sinh viên được kỳ vọng làm tốt hơn):
  6. Guideline công việc cần làm hàng tuần xem ở đây.

  7. FINAL: Cuối mỗi kỳ, sinh viên cập nhật 1 bản báo cáo cuối cùng vào đây.

LƯU Ý: Sinh viên không hoàn thiện theo đúng hướng dẫn sẽ không có điểm.