Datamining và trading

giailang

Well-Known Member
Trong thread này chúng ta sẽ cùng nhau điểm các tin về công nghệ xử lý thông tin được ứng dụng vào trading
 
Thompson Reuters vướng bê bối tin sớm cho tay to: http://cafebiz.vn/thi-truong/hang-tin-reuters-vuong-scandal-2013070917025667310ca101.chn.
Trước đây, Bloomberg đã vướng scandal tiết lộ thông tin, đến nay danh sách có thêm Reuters với lý do tạo nên lợi thế không cân xứng cho các tay to.

Điểm chung của hai anh này là đã kiếm được quá nhiều tiền vì buôn số và chữ. Nói theo cách thuần việt, "béo quá thì phải thịt".
 
Em thấy Reuters cung cấp tin tức cho một số khách hàng đồng ý trả tiền thêm sớm hơn những người còn lại là hợp lý chứ nhỉ, ở mình các bác còn nói trên fr là trả 60m/tháng thì có thể soi GD của từng tk em thấy cũng khiếp rồi.
 
Em thấy Reuters cung cấp tin tức cho một số khách hàng đồng ý trả tiền thêm sớm hơn những người còn lại là hợp lý chứ nhỉ, ở mình các bác còn nói trên fr là trả 60m/tháng thì có thể soi GD của từng tk em thấy cũng khiếp rồi.

Tui cũng nghĩ dzậy, nhưng cái lý của người mỹ thì khác lý của mình. Bao lâu nay chúng nó lên án Information Disparity (bất cân xứng thông tin) chỉ lợi cho BB/MM, cũng như chuyện đặt cầu chì, tăng độ trễ của Order Exchanger để giết HFT...
 
Qua vụ này, mới thấy thông tin nhận sớm vài giây có giá trị ghê gớm (thậm chí chỉ vài phần ngàn giây cũng đủ tạo lợi thế tuyệt đối cho HTF, kinh dị!)
Dân vịt ngan mà scalp với bọn này, thì như dùng tầm vông mà đấu với hỏa tiễn đạn đạo ấy nhỉ ?
Nhưng bác giai chắc đã có cách rút ngắn thế bất lợi rồi, nên mới mở thớt này ?

*
Với con mắt định hướng XHCN :D, tôi thấy bọn giãy chết cũng quá quắt lắm: không cho Reuters thu tiền, thì còn động lực nào để họ nỗ lực cung cấp dịch vụ nữa nhỉ ?
(Tiền quảng cáo chắc không đủ rồi)

Bác giai nghĩ sao ?
 
Hố hố hố vụ News có trước 40 - 50s em nói rồi mà. Ai mua news raw của bọn nó sẽ có terminal riêng(cao cấp) hoặc acc có thể truy cập vào room xem news raw. Đối với Fx thì cái này có lợi vô cùng nhưng chỉ thích hợp người nào có thế đánh giá được tác động của news đó đến đâu mà thôi. Rất may là thời gian qua em thấy thằng Reuters có vẻ chậm chạp nên đã chuyển sang ft.
 
Qua vụ này, mới thấy thông tin nhận sớm vài giây có giá trị ghê gớm (thậm chí chỉ vài phần ngàn giây cũng đủ tạo lợi thế tuyệt đối cho HTF, kinh dị!)
Dân vịt ngan mà scalp với bọn này, thì như dùng tầm vông mà đấu với hỏa tiễn đạn đạo ấy nhỉ ?
Nhưng bác giai chắc đã có cách rút ngắn thế bất lợi rồi, nên mới mở thớt này ?

*
Với con mắt định hướng XHCN :D, tôi thấy bọn giãy chết cũng quá quắt lắm: không cho Reuters thu tiền, thì còn động lực nào để họ nỗ lực cung cấp dịch vụ nữa nhỉ ?
(Tiền quảng cáo chắc không đủ rồi)

Bác giai nghĩ sao ?
Báo cáo bác, em nghĩ bọn này chuyển thành XHCN từng phần rồi. Chính sách xã hội, phúc lợi, thuế thu tòan cầu đối với công dân hoa kỳ... Nhiều cái y như anh râu rậm mô tả về sự chuyển biến của chủ nghĩa TB nhà nước thành CNXH. Và đặc biệt là anh nghị nào lơ mơ bị dân lấy tư cách người đóng thuế để nhắc nhở trách nhiệm...

Về văn hóa, người hoa kỳ nổi tiếng về các tư duy rất độc lập, nhưng các phim xưa xưa nó cũng lạ lắm nhé. Bác xem StarTrek, chúng nó nói y chang CNCS của anh Marx nhé: Khi đội tàu Enterprise quay lại xứ cờ hoa trong quá khứ, đón cá voi xanh lưng gù và một cô ở Viện Hải Dương học bay về tương lai, cô này tò mò hỏi Capt về tiền nong ở xã hội tương lai, Capt thản nhiên trả lời, thời chúng tôi không dùng tiền, đi làm là để được trải nghiệm và thể hiện sự sáng tạo cá nhân!!!
 
Bác Eric nói với CNBC là bác ý muốn "The securities markets should be a level playing field for all investors and the early release of market-moving survey data undermines fair play in the markets.", được thế thì tốt quá nhỉ, :). Các bác quản lý chả thấy có những ý tưởng bảo vệ nhà đầu tư ntn mà toàn lo việc ra luật vớ vẩn kiểu phạt chồng chì chiết vợ với cộng điểm thi đại học cho Mẹ VNAH.

Mà tốc độ xử lý như điện xẹt của các BB,MM thế thì em phải suy nghĩ đóng tk thôi ạ, oánh sao lại cái máy.
 
Dân chủ thì chúng kém ta vạn lần, tự do thì chẳng có khuôn khổ gì, làm việc không hề có nghị quyết, cũng không biết hô khẩu hiệu, lý luận thì Obama chưa đáng làm học trò của cán bộ thôn ta… Bọn chúng thua ta toàn diện mà sao đi nhanh thế nhỉ ?

Khéo chúng tiến lên CNXH trước xứ thiên đường ta mất ? :((
 
Bác Eric nói với CNBC là bác ý muốn "The securities markets should be a level playing field for all investors and the early release of market-moving survey data undermines fair play in the markets.", được thế thì tốt quá nhỉ, :). Các bác quản lý chả thấy có những ý tưởng bảo vệ nhà đầu tư ntn mà toàn lo việc ra luật vớ vẩn kiểu phạt chồng chì chiết vợ với cộng điểm thi đại học cho Mẹ VNAH.

Mà tốc độ xử lý như điện xẹt của các BB,MM thế thì em phải suy nghĩ đóng tk thôi ạ, oánh sao lại cái máy.
Khứa khứa, bác này chưa từng chơi mấy trò chơi điện tử kiểu đánh bạc, nên không biết trò bắt lỗi của máy. HFT thực sự là sát thủ vô tình khi nó cướp lệnh trước các nhà đầu tư, nhưng khối lượng của các HFT lại không lớn đủ mức cân bằng toàn bộ cung cầu, dập tắt volatility.

Vậy nếu ai bắt được bài của HFT:
+bán cái nó PHẢI mua, mua cái nó PHẢI bán mà lại có lợi, đó là loại người đầu tiên có lợi, đây là điển hình về bài của DB,
+Mượn tay HFT điều khiển được chiều của giá để kiếm lợi, đó là loại thứ hai có lợi đây là điển hình của GS
+Dùng HFT làm công cụ cho việc mua bán của chính mình là loại thứ 3 được lợi (các quỹ, bank)
+Dùng giao dịch thuật toán (máy đánh bạc): Mua bán trên phần còn dư thừa cung/cầu sau HFT, là loại có lợi thứ 4

Với những người còn lại, không biết gì về HFT và Algo trading, vẫn có thể có lợi nếu theo trend/momentum/range chuẩn xác, tức là các trader cổ điển.

Còn lại là đại đa số con bạc khát nước nhưng nhiều tiền, phát tâm cúng dường các predator ở trên mỗi phiên

Có thể tạm coi 6 loại trên chính là chuỗi thức ăn trong hệ sinh thái trading hiện nay
 
Last edited by a moderator:
Trong trading, thông tin luôn là thế mạnh của người biết cách thu thập và phân tích chuẩn xác. Các thông tin có thể rất đa dạng và xuất phát từ rất nhiều nguồn tản mát, khiến cho các trader nhiều khi bị loạn thông tin. Sau đây là một số nguồn tin thường được sử dụng:
1. Các hãng thông tấn chuyên cung cấp thông tin thị trường: Thompson Reuters, Financial Times: Thôg tin của các hãng này thường thiên về các biến động có tính cơ bản, thuận tiện cho phân tích cơ bản (FA)
2. Các sàn giao dịch: Kitco, LME, Euronex, CME, CBOE, NYSE, COMEX, FTSE...: Có hai loại thông tin chính là dữ liệu thô và nhận định đánh giá của các nhà phân tích
3. Các trang điện tử cung cấp thông tin thị trường: Bloomberg, NBC, WSJ, Gold Bullion... Bao gồm các dạng dữ liệu có cấu trúc và bình luận của các chuyên gia phân tích thuộc các tổ chức đầu tư.
4. Các diễn đàn về trading, blog cá nhân, mạng xã hội đưa thông tin và góc nhìn của giới trader cũng như các nhà phân tích

Dạng thức của các thông tin trên rất đa dạng và hầu như không có chuẩn chung, nguồn rải rác, cấu trúc dữ liệu biến đổi, lượng thông tin khổng lồ khiến cho việc thu thập và phân tích rất mất thời gian đối với các cá nhân. Do vậy, các tổ chức lớn phải nhờ cậy đến công nghệ để thu thập và xử lý. Khái niệm BIGDATA ra đời từ đó.

Để hình dung về khai thác dữ liệu từ Bigdata, ta hãy xem lời bình của CNBC tại đây
 
Last edited by a moderator:
Với dân chuyên môn về hệ thống, một platform điển hình về khai thác dữ liệu Bigdata có thể hình dung nguyên lý bằng sơ đồ khối sau đây- nguồn IBM
bd-platform-460x700.png


Cũng theo IBM, một hệ Bigdata điển hình theo hãng này phác thảo, dưới góc nhìn trực quan và gần với người sử dụng hơn, là như sau:
9666948_orig.jpg


Tất nhiên cái hình trên là một dạng món lẩu cho mọi nhà, chưa thực sự là hệ thống chuyên biệt phục vụ cho trading. Logic của trading không dàn hàng ngang một cách giản dị như vậy.
 
trưa em vừa ngồi search mấy cái thông tin từ IBM để hiểu thêm về Bigdata va HTF, cám ơn bác Giailang đã khai thông. Theo bác thì câu chuyện T+3, thiếu thông tin, đường truyền và ko cho bán khống ở VN thì mấy cái HTF có áp dụng dc ko? nếu có thì hiện giờ áp dụng dc % tổng số giao dịch.
 
trưa em vừa ngồi search mấy cái thông tin từ IBM để hiểu thêm về Bigdata va HTF, cám ơn bác Giailang đã khai thông. Theo bác thì câu chuyện T+3, thiếu thông tin, đường truyền và ko cho bán khống ở VN thì mấy cái HTF có áp dụng dc ko? nếu có thì hiện giờ áp dụng dc % tổng số giao dịch.
Câu hỏi của bạn không dễ trả lời trọn vẹn, và nếu có giải đáp từng phần thì tôi sẽ nêu trong một thread khác.
 
BIGDATA để làm gì?
Bài trước ta đã thấy khái niệm BIGDATA và mô tả về hệ thống để đáp ứng cho khái niệm đó. Quả thực, với cái hình sặc sỡ mà bạn thấy IBM mô tả hệ thống, hẳn đa số sẽ cảm thấy mông lung vì nó trông thật là dàn trải. Với một số người đa nghi, trông nó như thể cái PRISM mà chú Snowden vừa thổi còi; cái mớ dữ liệu khổng lồ với bao nhiêu đầu vào đầu ra đó thật rắm rối, trong khi quyết định đầu tư chỉ đơn giản gói trong 6Q đó là:
-Đầu tư vào cái gì (What)
-Không gian của hoạt động đầu tư, giới hạn của nó (Where)
-Bỏ vào bao nhiêu tiền và cách thức đầu tư thế nào (How)
-Khi nào thì vào/ra (When)
-Đối tác/đối thủ là ai (Who)
-Các chi tiết cần đưa vào kế hoạch (Which)

Không biết bao nhiêu tỷ đô la đã được đổ vào lĩnh vực này cũng chỉ để trả lời có ngần ấy câu hỏi, nhưng dường như tính thất thường của thị trường vẫn là cái gì đó không dễ tiên đoán. Không phải ai cũng thành công, đặc biệt là những người thích tìm ra chìa khóa vạn năng.
Nói cho đúng thì đó là những người bị chết đuối trong chính những bể bơi mà họ tạo ra, ngập lụt trong số liệu mà vẫn say sưa trong khối dữ liệu không lồ đó một cách mụ mị. Wall Street Journal từng đăng bài về kiểu lạc lối giữa rừng như vậy(xem thêm ở đây).
 
Trong phần trước ta đã thấy cách tiếp cận có tính hệ thống của IBM đối với Bigdata. Thực ra, ở góc độ của trading có các cách tiếp cận đơn giản hơn, xuất phát từ thực tế trading.

1. Theo cách truyền thống của các nhà toán học: theo Tiến sỹ Langden ở NAG, đó là sử dụng kho dữ liệu lớn và kỹ thuật datamining để phục vụ cho các mô hình tóan học để phân tích và xây dựng các quy tắc trading <xem ví dụ trong bài ở đây>

2. Theo cách tiếp cận của các chuyên gia thống kê: Trước đây từ thời VC.COM đã giới thiệu chỉ số COT (Commiment of Traders) chính là tham số được dùng để bổ sung cho một số chiến thuật giao dịch trong FX cũng như commodities. Ngày nay, với sự xuất hiện của các trang tin điện tử có thống kê đặt lệnh của trader, người ta cũng có thể lấy các số liệu về lượng đặt hàng, tỷ dụ như Myfxbook, forexfactory, fxcm

3. Giới phân tích từ vựng cũng đưa ra cách phân tích tin để đánh giá ảnh hưởng của nó đến biến động của giá. Ứng dụng phân tích văn bản đã được nghiên cứu khá nhiều, đặc biệt là nhằm phân tích các tin tức xuất hiện trên các media. Đó có thể là phân loại tin, hay dự báo giá cổ phiếu...

4.Cách tiếp cận thứ 4 là thu thập và phân tích nội dung trao đổi giữa các thành viên của một mạng xã hội nào đó có liên quan đến các loại hàng hóa/dịch vụ trực tiếp/gián tiếp ảnh hưởng đối với mặt hàng giao dịch cần khảo sát. Đây là kỹ thuật tìm kiếm mẫu (pattern), đánh giá sắc thái và thống kê trùng lặp để rút ra nhận định về cân bằng cung cầu. Twitter được cho là media phù hợp với loại hình này.
Đây chính là nền tảng của phương pháp sử dụng Machine Learning cho dạng truy vấn phân tán.

Nói vui, ở VC một số tình trạng cũng được coi là chỉ báo theo lối tư duy khá gần cách trên, kiểu như lúc đa số các bài mới trong ngày liên quan đến thơ, tức là VNI đáy, hay F319 đếm số bài Bull/Bear cho một mã để áng chừng độ rơi. Cá biệt có những thời kỳ sao sáng xuất hiện như "Đại tướng" VC chính là lúc anh em nên khẩn trương thu xếp lại danh mục...
 
Một số ví dụ về sử dụng datamining trong FX.

Trong các thuật tóan được sử dụng vào HFT, nối tiếng nhất là hai thuật tóan TWAP và VWAP mà tôi đã từng nhắc đến trước đây. Tuy nhiên, ngoài HFT vốn dành cho thị trường Equity, hai thuật tóan này cũng được dân FX sử dụng. Các bạn thuộc khối các nước nói tiếng Nga quả thực là những chuyên gia tuyệt vời về MQL4, và họ có bộ chỉ báo lấy số liệu volume từ CME để làm số liệu đầu vào cho VWAP đúng theo nguyên lý của Datamining. Các chỉ báo đó có thể lấy về từ đây
http://www.trend-lab.ru/search/label/ClusterX

Chỉ báo lịch các tin quan trọng được lấy từ forexfactory.com, dùng để lọc bỏ các trade hoặc đặt lệnh vào vùng có tin: ffcal.mq4. (Chịu khó tự tìm bằng google để có bản cập nhật)
 
Last edited by a moderator:
Phục bác Giai thật, món gì thấy bác cũng mần hết. Em sẽ thử tỉm hiểu với mấy món bốc thuốc này xem dc bao lâu.
 
Phục bác Giai thật, món gì thấy bác cũng mần hết. Em sẽ thử tỉm hiểu với mấy món bốc thuốc này xem dc bao lâu.
Cảm ơn bạn. Tui làm mọi thứ để thỏa cơn khát về hiểu biết. Nhưng dường như cơn khát đó chỉ bị giới hạn bởi tuổi thọ của tui khứa khứa
 
Kế đến là các công nghệ lõi để phục vụ Datamining. Đúng như tên, dịch một cách thật sát sàn sạt, Datamining là khai mỏ dữ liệu. Có thể khái quát việc khai mỏ này thành một dạng ngôn ngữ thủ tục như sau:

1. Lấy dữ liệu thô từ mỏ (đào mỏ). Sử dụng các thiết bị phù hợp với dạng dữ liệu và nguồn dữ liệu để lấy dữ liệu, ví dụ nối máy tính vào internet, để lấy dữ liệu từ internet.
2. Lọc và chuẩn hóa dữ liệu thành các thành phần tối thiểu theo quy chuẩn-itemset (làm sạch quặng, nghiền)
3. Lưu trữ dữ liệu vào cơ sở dữ liệu (vận chuyển quặng đã tinh luyện vào bồn quặng trong hệ thống kho)
Sau đó quá trình xử lý quặng tinh thành nguyên liệu thô là như sau:
4. Kiểm tra đánh giá độ chính xác của dữ liệu bằng cách đối chiếu với các nguồn dữ liệu khác, loại bỏ các dữ liệu thừa và sai (lọc bỏ tạp chất trong quặng)
5. Chuyển dữ liệu sang dạng có cấu trúc phù hợp nhu cầu sử dụng sau này (nấu chảy bột quặng và tạo phoi thô -ingot)

Đó cũng là 5 bước cơ bản để có được dữ liệu có thể xử dụng trong các truy vấn (data queries) về sau.

Do khối lượng dữ liệu là khổng lồ, người ta phân lớp các dạng kho dữ liệu tương tự như quá trình khai mỏ:
1. Nguồn dữ liệu gốc được hình dung như mỏ và bãi quặng ở mỏ, là nơi thợ mỏ không mất công sắp xếp nhiều, mà do người tạo ra mỏ xếp sẵn (giời sinh ra thế) nên dung tích chính là trữ lượng mỏ.
2. Cơ sở dữ liệu sơ cấp là nơi chứa dữ liệu đã qua xử lý sơ bộ, thường là rải rác, liên kết với các máy khai thác dữ liệu thô. Dung lượng không đòi hỏi lớn
3. Cơ sở dữ liệu thứ cấp: chứa các dữ liệu đã kiểm định và chuẩn hóa theo itemset, dung lượng lớn, tốc độ truy cập nhanh. Đây chính là cốt lõi của cuộc đua công nghệ xử lý giữa ông lớn về bigdata như IBM, ORACLE. SPSS... Không chỉ là phần mềm, loại CSDL này đòi hỏi có phần cứng mạnh, cho phép xử lý tốc độ cao với khối lượng truy vấn đồng thời thật sự lớn. Chính vì lý do này, xử lý song song và lưu trữ phân tán của tính tóan "đám mây" chiếm ưu thế.

Phần trên ta đã nói đến nguyên lý lấy dữ liệu và lưu trữ dữ liệu. Đó mới chỉ là khởi đầu, bởi xử lý, phân tích dữ liệu mới là yếu tố bảo đảm giá trị cao của BIGDATA.
 
Back
Top